CVPR 2020 | MS COCO上达SOTA,目标检测实用trick:ATSS

2020 年 3 月 23 日 极市平台

加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~


导读:论文指出one-stage anchor-based和center-based anchor-free检测算法间的差异主要来自于正负样本的选择,基于此提出ATSS(Adaptive Training Sample Selection)方法,该方法能够自动根据GT的相关统计特征选择合适的anchor box作为正样本,在不带来额外计算量和参数的情况下,能够大幅提升模型的性能。
  • 论文地址:https://arxiv.org/abs/1912.02424
  • 代码地址:https://github.com/sfzhang15/ATSS


Introduction


在仔细比对了anchor-based和anchor-free目标检测方法后,结合实验结果,论文认为两者的性能差异主要来源于正负样本的定义,假如训练过程中使用相同的正负样本,两者的最终性能将会相差无几。 为此,论文提出ATSS( Adaptive Training Sample Selection)方法,基于GT的相关统计特征自动选择正负样本,能够消除anchor-based和anchor-free算法间的性能差异。

论文的主要贡献如下:

  • 指出anchor-free和anchor-based方法的根本差异主要来源于正负样本的选择
  • 提出ATSS( Adaptive Training Sample Selection)方法来根据对象的统计特征自动选择正负样本
  • 证明每个位置设定多个anchor是无用的操作
  • 不引入其它额外的开销,在MS COCO上达到SOTA


Difference Analysis of Anchor-based and Anchor-free Detection


论文选取anchor-based方法RetinaNet和anchor-free方法FCOS进行对比,主要对比正负样本定义和回归开始状态的差异,将RetinaNet的anchor数改为1降低差异性,方便与FCOS比较,后续会测试anchor数带来的作用。


Inconsistency Removal





由于FCOS加入了很多trick,这里将RetinaNet与其进行对齐,包括GroupNorm、GIoU loss、限制正样本必须在GT内、Centerness branch以及添加可学习的标量控制FPN的各层的尺寸。结果如表1,最终的RetinaNet仍然与FCOS有些许的性能差异,但在实现方法上已经基本相同了。

Essential Difference


在经过上面的对齐后,仅剩两个差异的地方:(i) 分类分支上的正负样本定义 (ii) 回归分支上的bbox精调初始状态(start from anchor box or anchor point)

  • Classification
RetinaNet使用IoU阈值( , ) 来区分正负anchor bbox,处于中间的全部忽略。FCOS使用空间尺寸和尺寸限制来区分正负anchor point,正样本首先必须在GT box内,其次需要是GT尺寸对应的层,其余均为负样本
  • Regression
RetinaNet预测4个偏移值对anchor box进行调整输出,而FCOS则预测4个相对于anchor point值对anchor box进行调整输出

  • Conclusion




对上面的差异进行交叉实验,发现相同的正负样本定义下的RetinaNet和FCOS性能几乎一样,不同的定义方法性能差异较大,而回归初始状态对性能影响不大。所以,基本可以确定正负样本的确定方法是影响性能的重要一环。

Adaptive Training Sample Selection


Description

论文提出ATSS方法,该方法根据目标的相关统计特征自动进行正负样本的选择,具体逻辑如算法1所示。对于每个GT box ,首先在每个特征层找到中心点最近的 个候选anchor boxes(非预测结果),计算候选box与GT间的IoU  ,计算IoU的均值 和标准差 ,得到IoU阈值 ,最后选择阈值大于 的box作为最后的输出。如果anchor bo x对应多个GT,则选择IoU最大的GT。
ATSS的思想主要考虑了下面几个方向:

  • Selecting candidates based on the center distance between anchor box and object

在RetinaNet中,anchor box与GT中心点越近一般IoU越高,而在FCOS中, 中心点越近一般预测的质量越高

  • Using the sum of mean and standard deviation as the IoU threshold
均值 表示预设的anchor与GT的匹配程度,均值高则应当提高阈值来调整正样本,均值低则应当降低阈值来调整正样本。 标准差 表示适合GT的FPN层数,标准差高则表示高质量的anchor box集中在一个层中,应将阈值加上标准差来过滤其他层的anchor box,低则表示多个层都适合该GT,将阈值加上标准差来选 择合适的层的anchor box,均值和标准差结合作为IoU阈值能够很好地自动选择对应的特征层上合适的anchor box
  • Limiting the positive samples’ center to object

若anchor box的中心点不在GT区域内,则其会使用非GT区域的特征进行预测,这不利于训练,应该排除

  • Maintaining fairness between different objects
根据统计原理,大约16%的anchor box会落在 尽管候选框的IoU不是标准正态分布,但统计下来每个GT大约有 个正样本,与其大小和长宽比无关,而RetinaNet和FCOS则是偏向大目标有更多的正样本,导致训练不公 平。
  • Keeping almost hyperparameter-free
ATSS仅有一个超参数 ,后面的使用会表明ATSS的性能对 不敏感,所以ATSS几乎是hyperparameter-free的

Verification

将ATSS应用到RetinaNet和FCOS上测试效果:
  • 将RetinaNet中的正负样本替换为ATSS,AP提升了2.9%,这样的性能提升几乎是没有任何额外消耗的
  • 在FCOS上的应用主要用两种:lite版本采用ATSS的思想,从选取GT内的anchor point改为选取每层离GT最近的top 个候选anchor point,提升了0.8%AP;full版本将FCOS的anchor point改为长宽为 的anchor box来根据ATSS选择正负样本,但仍然使用原始的回归方法,提升了1.4%AP。两种方法找到的anchor point在空间位置上大致相同,但是在FPN层上的选择不太一样。从结果来看,自适应的选择方法比固定的方法更有效

Analysis

参数k在区间 几乎是一样的,过大的设置会到导致过多的低质量候选anchor,而过小的设置则会导致过少的正样本,而且统计结果也不稳定。总体而言,参数 是相对鲁棒的,可以认为ATSS是hyperparameter-free
在FCOS的full版本中使用了 的anchor box,论文对不同的尺寸进行了对比,如表5所示,也在 基础上对不同的长宽比进行了对比,如表6所示。从结果来 看,性能几乎对尺寸和长宽比无关,相对鲁棒


Discussion



前面的RetinaNet实验只用了一个anchor box,论文补充测试了不同anchor数下的性能,实验中的Imprs为表1中的提升手段。从结果来看,在每个位置设定多个anchor box是无用的操作,关键在于选择合适的正样本

Comparison

实现的是FCOS版本的ATSS,在相同的主干网络下,ATSS方法能够大幅增加准确率,十分有效。

Conclusion


论文指出one-stage anchor-based和center-based anchor-free检测算法间的差异主要来自于正负样本的选择,基于此提出ATSS(Adaptive Training Sample Selection)方法,该方法能够自动根据GT的相关统计特征选择合适的anchor box作为正样本,在不带来额外计算量和参数的情况下,能够大幅提升模型的性能,十分有用。



-END -

推荐阅读:


极市平台视觉算法季度赛,提供真实应用场景数据和免费算力,特殊时期,一起在家打比赛吧!



添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群,更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流一起来让思想之光照的更远吧~


△长按添加极市小助手


△长按关注极市平台,获取最新CV干货


觉得有用麻烦给个在看啦~  

登录查看更多
0

相关内容

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
专知会员服务
53+阅读 · 2020年3月16日
专知会员服务
109+阅读 · 2020年3月12日
47.4mAP!最强Anchor-free目标检测网络:SAPD
极市平台
13+阅读 · 2019年12月16日
小目标检测相关技巧总结
极市平台
28+阅读 · 2019年8月15日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
FoveaBox,超越Anchor-Based的检测器
极市平台
10+阅读 · 2019年4月22日
CVPR2019目标检测方法进展综述
极市平台
45+阅读 · 2019年3月20日
CVPR 2018|Cascade R-CNN:向高精度目标检测器迈进
极市平台
10+阅读 · 2018年7月20日
CVPR 2018 | 炫酷的卡通画目标检测
极市平台
6+阅读 · 2018年7月5日
Arxiv
24+阅读 · 2020年3月11日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
9+阅读 · 2018年3月28日
VIP会员
相关资讯
47.4mAP!最强Anchor-free目标检测网络:SAPD
极市平台
13+阅读 · 2019年12月16日
小目标检测相关技巧总结
极市平台
28+阅读 · 2019年8月15日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
FoveaBox,超越Anchor-Based的检测器
极市平台
10+阅读 · 2019年4月22日
CVPR2019目标检测方法进展综述
极市平台
45+阅读 · 2019年3月20日
CVPR 2018|Cascade R-CNN:向高精度目标检测器迈进
极市平台
10+阅读 · 2018年7月20日
CVPR 2018 | 炫酷的卡通画目标检测
极市平台
6+阅读 · 2018年7月5日
Top
微信扫码咨询专知VIP会员