ECCV2022 | 屠榜多目标跟踪!华科&港大提出ByteTrack:基于数据关联方法BYTE的跟踪器

2022 年 7 月 19 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨孙培泽@知乎(已授权)

来源 https://zhuanlan.zhihu.com/p/421264325
编辑丨极市平台

极市导读

 

基于BYTE本文提出了一个跟踪方法ByteTrack,首次以30 FPS的运行速度在MOT17上取得80.3 MOTA,77.3 IDF1和63.1 HOTA,目前位居MOTChallenge榜单第一。目前被ECCV2022接受。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

本文主要介绍一下我们最近的一篇工作:
ByteTrack: Multi-Object Tracking by Associating Every Detection Box
沿着多目标跟踪(MOT)中tracking-by-detection的范式,我们提出了一种简单高效的数据关联方法BYTE。利用检测框和跟踪轨迹之间的相似性,在保留高分检测结果的同时,从低分检测结果中去除背景,挖掘出真正的物体(遮挡、模糊等困难样本),从而降低漏检并提高轨迹的连贯性。BYTE能轻松应用到9种state-of-the-art的MOT方法中,并取得1-10个点不等的IDF1指标的提升。基于BYTE我们提出了一个跟踪方法ByteTrack,首次以30 FPS的运行速度在MOT17上取得80.3 MOTA,77.3 IDF1和63.1 HOTA,目前位居MOTChallenge榜单第一。我们还在开源代码中加入了将BYTE应用到不同MOT方法中的教程以及ByteTrack的部署代码。
Paper:  http://arxiv.org/abs/2110.06864
Code:  https://github.com/ifzhang/ByteTrack
Leaderboard:  https://motchallenge.net/results/MOT17/?det=Private
纵轴是MOTA,横轴是FPS,圆的半径代表IDF1的相对大小

1. Motivation

Tracking-by-detection是MOT中的一个经典高效的流派,通过相似度(位置、外观、运动等信息)来关联检测框得到跟踪轨迹。由于视频中场景的复杂性,检测器无法得到完美的检测结果。为了处理true positive/false positive的trade-off,目前大部分MOT方法会选择一个阈值,只保留高于这个阈值的检测结果来做关联得到跟踪结果,低于这个阈值的检测结果直接丢弃。但是这样做合理吗?答案是否定的。黑格尔说过:“存在即合理。”低分检测框往往预示着物体的存在(例如遮挡严重的物体)。简单地把这些物体丢弃会给MOT带来不可逆转的错误,包括大量的漏检和轨迹中断,降低整体跟踪性能。

2. BYTE

为了解决之前方法丢弃低分检测框的不合理性,我们提出了一种简单、高效、通用的数据关联方法BYTE (each detection box is a basic unit of the tracklet, as byte in computer program)。直接地将低分框和高分框放在一起与轨迹关联显然是不可取的,会带来很多的背景(false positive)。BYTE将高分框和低分框分开处理,利用低分检测框和跟踪轨迹之间的相似性,从低分框中挖掘出真正的物体,过滤掉背景。整个流程如下图所示:
(1)BYTE会将每个检测框根据得分分成两类,高分框和低分框,总共进行两次匹配。
(2)第一次使用高分框和之前的跟踪轨迹进行匹配。
(3)第二次使用低分框和第一次没有匹配上高分框的跟踪轨迹(例如在当前帧受到严重遮挡导致得分下降的物体)进行匹配。
(4)对于没有匹配上跟踪轨迹,得分又足够高的检测框,我们对其新建一个跟踪轨迹。对于没有匹配上检测框的跟踪轨迹,我们会保留30帧,在其再次出现时再进行匹配。
我们认为,BYTE能work的原因是遮挡往往伴随着检测得分由高到低的缓慢降低:被遮挡物体在被遮挡之前是可视物体,检测分数较高,建立轨迹;当物体被遮挡时,通过检测框与轨迹的位置重合度就能把遮挡的物体从低分框中挖掘出来,保持轨迹的连贯性。

3. ByteTrack

ByteTrack使用当前性能非常优秀的检测器YOLOX得到检测结果。在数据关联的过程中,和SORT一样,只使用卡尔曼滤波来预测当前帧的跟踪轨迹在下一帧的位置,预测的框和实际的检测框之间的IoU作为两次匹配时的相似度,通过匈牙利算法完成匹配。这里值得注意的是我们没有使用ReID特征来计算外观相似度:
(1)第一点是为了尽可能做到简单高速,第二点是我们发现在检测结果足够好的情况下,卡尔曼滤波的预测准确性非常高,能够代替ReID进行物体间的长时刻关联。实验中也发现加入ReID对跟踪结果没有提升。
(2)如果需要引入ReID特征来计算外观相似度,可以参考我们开源代码中将BYTE应用到JDE,FairMOT等joint-detection-and-embedding方法中的教程。
(3)ByteTrack只使用运动模型没有使用外观相似度能在MOT17,20取得高性能的本质原因是MOT数据集的运动模式比较单一(于是,我们提出了一个新数据DanceTrack,彩蛋!)

4. Demo

ByteTrack在MOT 17 and MOT20 challenge的效果:
ByteTrack在故宫游玩时拍摄视频的效果(侵权删):

5. Performance

首先,我们使用YOLOX的检测结果,发现BYTE能够大幅领先SORT,DeepSORT,MOTDT等经典热门关联方法,对超参数也更加鲁棒,结果如下所示:
其次,我们将BYTE应用到了ECCV20之后的9种SOTA tracker上,其中包括基于ReID, motion和attention的方法,都得到了稳定的MOTA和IDF1指标的提升,结果如下表所示:
最后,ByteTrack在MOT17和MOT20上都达到了榜单第一,并且速度在当前所有方法中也达到第一(30 FPS)。

6. Conclusion

多目标追踪场景中,大部分遮挡物体的检测结果都是低分框,ByteTrack非常简洁的从低分检测框中寻找遮挡的物体,对遮挡非常鲁棒。ByteTrack同时也为如何最大程度利用检测结果来帮助MOT提供了启发。我们也提供了ByteTrack的部署代码和模型,希望它的高精度、高速度能够对实际应用带来帮助。

7. 彩蛋

ByteTrack在MOT17,20的表现启发我们重新思考多目标追踪中的运动模型与re-ID模型。当前众多跟踪模型强依赖于提取物体的外观特征,那如果追踪物体的外观基本一致时,现有模型的的表现如何?当前主流多目标跟踪数据集中物体的运动模式非常简单,近乎匀速直线运动,如果物体的运动模式非常复杂,多个物体互相来回穿梭,现有模型的的表现如何?我们提出了一个数据集:
DanceTrack: tracking multiple objects in uniform appearance and diverse motion



公众号后台回复“项目实践”获取50+CV项目实践机会~

△点击卡片关注极市平台,获取 最新CV干货
极市干货
最新数据集资源: 医学图像开源数据集汇总
实操教程 Pytorch - 弹性训练原理分析《CUDA C 编程指南》导读
极视角动态: 极视角作为重点项目入选「2022青岛十大资本青睐企业」榜单! 极视角发布EQP激励计划,招募优质算法团队展开多维度生态合作!

极市原创作者激励计划 #


极市平台深耕CV开发者领域近5年,拥有一大批优质CV开发者受众,覆盖微信、知乎、B站、微博等多个渠道。通过极市平台,您的文章的观点和看法能分享至更多CV开发者,既能体现文章的价值,又能让文章在视觉圈内得到更大程度上的推广。

对于优质内容开发者,极市可推荐至国内优秀出版社合作出书,同时为开发者引荐行业大牛,组织个人分享交流会,推荐名企就业机会,打造个人品牌 IP。

投稿须知:
1. 作者保证投稿作品为自己的 原创作品。
2. 极市平台尊重原作者署名权,并支付相应稿费。文章发布后,版权仍属于原作者。
3.原作者可以将文章发在其他平台的个人账号,但需要在文章顶部标明首发于极市平台

投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编


点击阅读原文进入CV社区

收获更多技术干货

登录查看更多
0

相关内容

【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
20+阅读 · 2021年11月29日
专知会员服务
22+阅读 · 2021年9月23日
专知会员服务
20+阅读 · 2021年7月28日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
ECCV 2022 | ByteTrack: 简单高效的数据关联方法
PaperWeekly
0+阅读 · 2022年8月1日
DINO:目标检测benchmark COCO屠榜的正确姿势
极市平台
1+阅读 · 2022年3月11日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
多目标跟踪:SORT和Deep SORT
极市平台
47+阅读 · 2019年3月18日
CVPR2018 目标检测算法总览(最新的目标检测论文)
极市平台
21+阅读 · 2018年12月21日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年9月12日
Tracking Small and Fast Moving Objects: A Benchmark
Arxiv
0+阅读 · 2022年9月9日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关资讯
ECCV 2022 | ByteTrack: 简单高效的数据关联方法
PaperWeekly
0+阅读 · 2022年8月1日
DINO:目标检测benchmark COCO屠榜的正确姿势
极市平台
1+阅读 · 2022年3月11日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
多目标跟踪:SORT和Deep SORT
极市平台
47+阅读 · 2019年3月18日
CVPR2018 目标检测算法总览(最新的目标检测论文)
极市平台
21+阅读 · 2018年12月21日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员