ECCV 2022 | 同时完成四项跟踪任务!Unicorn: 迈向目标跟踪的大统一

2022 年 7 月 26 日 PaperWeekly


©作者 | 孙培泽

单位 | 香港大学

研究方向 | 计算机视觉


本文主要介绍一下我们最近的一篇 unifying object tracking 的工作。

目标跟踪领域主要可分成以下四项子任务:单目标跟踪(SOT),视频目标分割(VOS),多目标跟踪(MOT),多目标跟踪与分割(MOTS)。由于不同子任务在定义与设定上的差异,绝大多数现有跟踪算法都是被设计用来解决单一或者部分子任务的,缺乏向其他任务的拓展能力。显然,他们的长期割裂状态对于跟踪领域的发展并不友好。

我们提出了一种目标跟踪任务的大统一模型 Unicorn, 该模型只需一套网络结构、一套模型参数即可同时完成四种跟踪任务。 Unicorn 首次实现了目标跟踪网络结构与学习范式的大一统,在不同跟踪任务上使用完全相同的输入、骨干网络、特征嵌入、以及预测头部。Unicorn 在来自四种跟踪任务的 8 个富有挑战性的数据集 (LaSOT, TrackingNet, MOT17, BDD100K, DAVIS-16, DAVIS-17, MOTS, BDD100K MOTS)上取得了优异的表现,在多个数据集上刷新了 State-of-The-Art。


论文标题:

Towards Grand Unification of Object Tracking

论文链接:

https://arxiv.org/abs/2207.07078

代码链接:

https://github.com/MasterBin-IIAU/Unicorn




Motivation


目标跟踪是计算机视觉中的基本任务之一,其旨在建立帧之间的像素级或实例级对应关系,并通常以 box 或 mask 的形式输出轨迹。根据不同的应用场景,目标跟踪问题主要分成了四个独立的子任务:SOT、MOT、VOS 和 MOTS。这导致大多数跟踪方法都是仅针对其中一个或部分子任务而设计的,每个领域的各自发展导致了长期的方法隔离和数据隔离,这种分裂的局面带来了以下缺点:

  • 跟踪器可能过拟合特定子任务的特性,缺乏向其他任务的泛化能力。 
  • 独立的模型设计导致冗余的参数。例如,基于深度学习的跟踪器通常采用类似的backbone结构,但独立的跟踪模块设计理念阻碍了潜在的参数复用的可能。


本质上无论是 SOT/VOS 还是 MOT/MOTS 都是时序空间上特征的关联,区别只是 instance 的数量。那么很自然地要问一个问题:是否所有的主流追踪任务都可以用一个统一的模型来解决呢?尽管目前已经有一些工作(例如 SiamMask、TraDes 等)尝试用一个网络同时完成 SOT&VOS 或者 MOT&MOTS,但是 SOT 与 MOT 之间始终难以统一。我们发现,阻碍 SOT 与 MOT 统一的主要障碍有以下三点:

  1. 被跟踪物体的特性不同。MOT 通常要跟踪 几十甚至几百个特定类别的实例。SOT 需要跟踪参考帧中给定的一个目标,无论目标属于哪个类别
  2. 需要的对应关系不同。SOT 需要将目标与背景区分开来。MOT 需要将当前检测到的对象与之前的轨迹相匹配。 
  3. 模型的输入不同。大多数 SOT 方法为了节省计算量并过滤潜在的干扰物,都是以一个小的搜索区域作为输入。然而,MOT 算法为了将实例尽可能全地检测到,通常以高分辨率的全图作为输入。


Unicorn 提出了两个核心设计: 目标先验(target prior) 像素级对应关系(pixel-wise correspondence) 来攻克以上挑战。具体来说:

  1. 目标先验作为检测头的一个额外输入,是在四个任务之间切换的开关。对于 SOT&VOS,目标先验是通过传播(propagation)得到的目标图,使预测头部能够专注于跟踪的目标。对于 MOT&MOTS,通过将目标先验设置为零,预测头部可以自然地退化成常规的特定类别的检测头部。
  2. 像素级对应关系是参考帧和当前帧的所有点对之间的相似度。SOT 对应关系和 MOT 对应关系都可以看作是像素级对应关系的子集。 
  3. 借助目标先验和精确的的像素级对应关系,SOT 可以不再依赖搜索区域,从而和 MOT 一样接收全图作为输入。





Unicorn


Unicorn的整体结构主要包含三个组成部分(1)统一的输入和骨干网络(2)统一的特征嵌入(Unified Embedding)(3)统一的预测头部(Unified Head)。


2.1 Unified Embedding


目标跟踪的核心任务之一是在视频帧之间建立准确的对应关系。具体来说:

  • 对于 SOT&VOS,像素级对应关系(pixel-wise correspondence)将用户指定的目标从参考帧(通常是第一帧)传播到第 t 帧,为最终的框或掩码预测提供强大的先验信息。
  • 对于 MOT&MOTS,实例级对应关系(instance-level correspondence)将第 t 帧上检测到的实例与参考帧(通常是第 t-1 帧)上的现有轨迹相关联。


像素级对应关系是参考帧 reference frame embedding(HW x C)和当前帧current frame embedding(HW x C)的两两点乘(HW x HW)。同时,由于instance embedding 是在 frame embedding 上从实例所在位置处提取得到的,因此 实例级对应关系可以看作是像素级对应关系的子矩阵!即四种跟踪任务可以共享统一的 Embedding!

Embedding 的训练 loss 应该同时适用于四种跟踪任务的需要:

  • 对于 SOT&VOS 来说,虽然帧间的像素级对应关系没有现成的标签,但是可以通过监督传播后的 target map 来提供监督信号,即 target map 在目标所在区域的值等于 1,其他区域的值为 0。
  • 对于 MOT&MOTS 来说,实例级对应关系可通过标准的对比学习范式得到,对于参考帧和当前帧上的实例,属于同一 ID 的为正样本,其余的为负样本。


2.2 Unified Head


为了实现目标跟踪的大一统,另一个重要且具有挑战性的问题是 如何为四种跟踪任务设计一个统一的预测头部 。具体来说,MOT 需要检测特定类别的目标,而 SOT  需要检测参考帧中给定的任何类别的目标。为了弥补这一差异,Unicorn 为检测头部引入了一个额外的输入,称为目标先验(target prior),无需任何进一步修改,Unicorn 就可以通过这个统一的头部检测四项任务所需的各种目标。 

如图所示,通过传播得到的当前帧目标图的估计可以提供关于要跟踪目标状态的强先验信息,这启发我们在检测 SOT&VOS 的目标时将其作为目标先验。同时,在处理 MOT&MOTS 时,我们可以简单地将目标先验设置为零。



2.3 Training and Inference


训练: 整个训练过程分为两个阶段:SOT-MOT 联合训练和 VOS-MOTS 联合训练。在第一阶段,使用来自 SOT&MOT 的数据对网络进行端到端优化。在第二阶段,固定其他参数,添加掩码分支,并使用来自 VOS&MOTS 的数据对网路进行优化。

测试: 在测试阶段,对于 SOT&VOS,参考目标图只需在第一帧生成一次,并在后续帧中保持固定。Unicorn 直接挑选置信度最高的框或掩码作为最终的跟踪结果,无需像余弦窗那样对超参数敏感的后处理。此外,Unicorn 在每一帧上只需要运行一次骨干网络和计算一次对应关系,当有 N 个要跟踪的目标时,只需运行轻量级预测头 N 次,而不是将整个网络运行 N 次,具有更高的效率。对于 MOT&MOTS,Unicorn 检测给定类别的所有目标并同时输出相应的实例嵌入。在 BDD100K 和 MOT17上,数据关联分别采用的是基于 Embedding 和运动模型的匹配策略。




Performance


我们在来自四项跟踪任务的 8 个数据集上对 Unicorn 进行了评测。


3.1 SOT


Unicorn 在两个大规模 SOT 数据集 LaSOT 和 TrackingNet 上均做到了 state-of-the-art,Success 指标相比于之前最优的方法 STARK 分别提升了 1.4% 和 1.0%。



3.2 MOT


在 MOT17 数据集上,Unicorn 在 MOTA,IDF1,HOTA 三项重要跟踪指标上均做到了 state-of-the-art。



在 BDD100K 数据集上,Unicorn 在 mMOTA,mIDF1 两项关键跟踪指标上均大幅领先之前效果最好的方法 QDTrack,mMOTA 和 mIDF1 两项指标分别有 4.6% 和 3.2% 的提升。



3.3 VOS


在 DAVIS16 和 DAVIS17 数据集上,第一帧无需精确的 mask 标注、仅使用 box 初始化,Unicorn 仍取得了不错的成绩。在 DAVIS16-17 上,Unicorn 相比于同样使用 box 初始化的 SiamMask 来说,J&F 指标有 17.6% 和 12.8% 的提升!此外,尽管只利用 box 初始化,Unicorn 的甚至也能和一些用 mask 初始化的方法(UniTrack,RANet 等)相媲美。



3.4 MOTS


在 MOTS Challenge 数据集上,Unicorn 在 sMOTSA 和 IDF1 两项重要跟踪指标上大幅领先于之前的方法,例如 PointTrackV2、TrackFormer 等。



在 BDD100K MOTS 数据集上,相比之前效果最好的 PCAN,Unicorn 在 mMOTSA 和 mMOTSP 两项指标上分别有 2.2% 和 1.0% 的提升。





Demo


以下 Demo 展示了 Unicorn 在 SOT、MOT、VOS、MOTS 四项任务上的一些可视化效果。以下结果均使用同一套网络结构和模型参数。




Conclusion

Unicorn 首次统一了四项目标跟踪任务的网络结构与学习范式,用一套统一的结构和参数在 8 个富有挑战性的数据集上取得了亮眼的表现。我们希望 Unicorn 能够为整个追踪领域带来一些启发,朝着通用视觉模型这一目标迈出扎实的一步。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

登录查看更多
0

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
13+阅读 · 2022年5月4日
【CVPR2022】语言作为查询的参考视频目标分割框架
专知会员服务
8+阅读 · 2022年4月27日
【CVPR2022】GaTector:凝视对象预测的统一框架
专知会员服务
9+阅读 · 2022年3月24日
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
36+阅读 · 2021年8月5日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
ECCV 2022 Oral | Unicorn:迈向目标跟踪的大统一
极市平台
1+阅读 · 2022年7月18日
CVPR 2019 论文大盘点-目标跟踪篇
极市平台
20+阅读 · 2019年8月8日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Multi-Domain Multi-Task Rehearsal for Lifelong Learning
Arxiv
12+阅读 · 2020年12月14日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
已删除
Arxiv
31+阅读 · 2020年3月23日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
相关VIP内容
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
13+阅读 · 2022年5月4日
【CVPR2022】语言作为查询的参考视频目标分割框架
专知会员服务
8+阅读 · 2022年4月27日
【CVPR2022】GaTector:凝视对象预测的统一框架
专知会员服务
9+阅读 · 2022年3月24日
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
36+阅读 · 2021年8月5日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Top
微信扫码咨询专知VIP会员