论文推荐 | 单目标跟踪D3S,超越现有SOTA

2020 年 2 月 6 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~


来源:知乎
作者:零维
链接: https://zhuanlan.zhihu.com/p/95842960
本文已由作者授权转载,未经允许,不得二次转载。



论文链接:https://arxiv.org/pdf/1911.08862.pdf

这篇论文是2019年挂靠arxiv上的新作,粗略扫了一眼,在各个评测数据集的表现可以用“爆炸”形容。论文对比的几个真.SOTA的追踪器,在VOT数据集上远不及D3S。不出意外,这篇论文八成是投递了CVPR 2020的一篇单目标追踪新作,下面来讲一下是本文如何做到这么优秀的跟踪结果的。


文章指出,当前基于模板匹配的方法因为具有较高的鲁棒性,因此主导了单目标的追踪领域,但是因为有矩形框的限定,降低了这些追踪的精度(框不准)。D3S致力于缩小目标追踪与目标分割的差距,利用单一网络,分支出两个互补的模型。一个模型负责追踪物体的非刚性形变,另一个模型负责实现高鲁棒性的在线目标分割。模型的输入为第一帧的一个实例分割的mask,实验效果达到了追踪数据集上的top,且在视频分割benchmark上与SOTA算法持平,在速度上快出一个数量级。


基于模板匹配的方法当物体的宽高比发生变化,或者物体旋转时由于语义信息的缺乏会变得不准确,并且基于轴对称的矩形框并不能代表部分非轴对称物体的表征特性,当物体非常细长、形变大的情况,最准确的定位位置的方法其实是对于周围像素的前景背景mask分割。D3S通过用两个视觉编码模型解决了上述说明的问题,其中一个分支称为GEM,具有自适应性与高辨别性,受限于欧几里得运动约束,而另一个称为GIM,用于探索更广范围内的目标状态转移情况。GIM牺牲了空间上的关系,追踪目标潜在的形变状态,而GEM仅仅预测位置。D3S也在多个数据集上证明了其SOTA的水平,并且不同的数据集之间不需要重新训练finetune,具有强大的普适性。

从网络骨干中可以看出,GEM分支负责位置的预测L,GIM分支负责前景的相似度F和目标后验P的检测。最终三个通道的输出串联到一个分割的map中。下面具体来讲一下GIM和GEM的实现过程。

GIM的目的是分割出目标物体的轮廓。由于backbone的特征缺少精细的划分,首先通过1*1的卷积后降维,再通过一层3*3的卷积,这两层的目的是调整网络参数使得分支划分得到最佳的效果。在跟踪过程中,将在搜索区域计算前景与背景的相似度map,对于F来说,通过归一化的点积(与周围的点)在像素i的位置产生特征Sij,最终的Fi为前景最相似的top K个,背景相似度遵循同样的法则。后续的F与B的分支通过softmax引导到后通道P中,作为物体的mask认知。


GIM可以很好将目标与背景分离,但无法区分与目标物体相似的实例,导致了鲁棒性的下降。作者借鉴相关滤波的思想,采用最新的DCF相关追踪器ATOM中的公式,引入了带有几何约束的欧几里得模型GEM。如下图所示,GEM模块从backbone的特征中经过1*1的卷积核降维,之后通过通道数为64的DCF滤波进行相关操作,再经过PeLU的非线性生成相关滤波响应map。

由此可见,GIM与GEM形成了互补的像素级信息估计。GEM对位置信息敏感,GIM的输出显示出目标的更对细节特征。作者将GIM与GEM结合生成最终的分割结果,Refinement过程如下图所示。F、P、L的像素级map经过concatenate连接后首先经过3*3的卷积核+ReLU,变成64通道的feature map。通过backbone与feature map的三个upscaling操作将分辨率扩大。

模型的backbone是预训练的resnet-50,搜索区域设置为384*384像素。模型在3471个YouTube-VOS数据集上的视频序列训练而成,仍然是以50帧间距内的成对样本作为训练。一批设置64对样本,训练40个Epoch,损失采用交叉熵损失。在单GPU下20小时即可完成训练,对比之前SOTA的追踪器可谓极其高效。速度方面,在单1080卡上可达到25fps的实时速度。

实验效果非常震撼。用20小时单卡训练出的模型,在不finetune超参数的情况下可以在精度、鲁棒性上完全压制当前最新的SiamRPN++、SiamMask等方法,VOT2018惊人的达到了0.489的EAO。

在GOT-10k、TrackingNet的表现上也可圈可点。

通过消融实验证明了GEM模块能够对追踪效果产生巨大的提升,尤其是鲁棒性的提升。没有GEM模块的追踪器仅仅在VOT2018上达到0.25的分数。


纵观2019年下半年,不难发现基于孪生网络的单目标追踪有一种趋势,即从“基于Detection的Tracking”思维中摆脱,采用多分支多通道拟合目标的位置、姿态等信息。从网络的训练配置和实验效果的双方面衡量,这篇文章的work无疑是相当成功的。


-END-



点击 阅读原文,可跳转浏览本文内所有网址链接



*延伸阅读




PS:新年假期,极市将为大家分享计算机视觉顶会 ICCV 2019 大会现场报告系列视频,欢迎前往B站【极市平台】观看,春节也学习,极市不断更,快来打卡点赞吧~

https://www.bilibili.com/video/av83518299



添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流一起来让思想之光照的更远吧~




△长按添加极市小助手


△长按关注极市平台


觉得有用麻烦给个在看啦~  

登录查看更多
1

相关内容

【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
54+阅读 · 2020年6月24日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
重磅!商汤开源目标跟踪最强算法SiamRPN系列
AI前线
13+阅读 · 2019年5月24日
FoveaBox,超越Anchor-Based的检测器
极市平台
10+阅读 · 2019年4月22日
DaSiamRPN的升级版,视觉目标跟踪之SiamRPN++
极市平台
75+阅读 · 2019年2月20日
深度学习与计算机视觉任务应用综述
深度学习与NLP
49+阅读 · 2018年12月18日
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
视觉物体跟踪新进展:让跟踪器读懂目标语义信息
微软研究院AI头条
7+阅读 · 2018年9月13日
论文 | 深度学习实现目标跟踪
七月在线实验室
47+阅读 · 2017年12月8日
VALSE2017系列之四:目标跟踪领域进展报告
深度学习大讲堂
7+阅读 · 2017年5月22日
Learning by Abstraction: The Neural State Machine
Arxiv
6+阅读 · 2019年7月11日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
4+阅读 · 2018年1月29日
VIP会员
相关VIP内容
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
54+阅读 · 2020年6月24日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
相关资讯
重磅!商汤开源目标跟踪最强算法SiamRPN系列
AI前线
13+阅读 · 2019年5月24日
FoveaBox,超越Anchor-Based的检测器
极市平台
10+阅读 · 2019年4月22日
DaSiamRPN的升级版,视觉目标跟踪之SiamRPN++
极市平台
75+阅读 · 2019年2月20日
深度学习与计算机视觉任务应用综述
深度学习与NLP
49+阅读 · 2018年12月18日
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
视觉物体跟踪新进展:让跟踪器读懂目标语义信息
微软研究院AI头条
7+阅读 · 2018年9月13日
论文 | 深度学习实现目标跟踪
七月在线实验室
47+阅读 · 2017年12月8日
VALSE2017系列之四:目标跟踪领域进展报告
深度学习大讲堂
7+阅读 · 2017年5月22日
Top
微信扫码咨询专知VIP会员