CVPR 2018 | Repulsion loss:专注于遮挡情况下的行人检测

2018 年 8 月 4 日 极市平台

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


论文地址:https://arxiv.org/abs/1711.07752


背景介绍

与通用目标检测相比,遮挡情况在行人检测中更为普遍,为此也是行人检测领域最广为关注的问题之一。现实场景中行人的遮挡情况主要分为两种情况:一种是其他物体对行人的遮挡,这往往会带来目标信息的缺失,进而导致漏检;另一种是行人个体之间的相互遮挡,这往往会引入大量的干扰信息,进而导致更多的虚检。本文重点解决的是后一种情况导致的遮挡问题。作者将对这一问题进行了深入思考,并从loss的层面提出了一种新颖的解决方案,为我们呈现了一场思路和实验都十分精彩的盛宴。


主要内容


行人检测的遮挡问题

本文重点解决的问题是:在行人个体之间的相互遮挡时,如何提高行人检测的准确率。无论是在自动驾驶还是智能监控场景下,行人以群体形式出现的情况时有发生,如图1所示:两个行人个体之间存在着相互遮挡,而这种遮挡对检测算法的影响体现在两个层面:一是目标框定位不准确,如图中红色框;二是算法对NMS的阈值的选取更为敏感了,如果NMS阈值选取过小,则周围的目标框就被过滤掉了(图中蓝色框),但蓝色框对于图中女士而言却是正确的预测,如果NMS阈值选取过大,则又会带来更多的虚检。对于这样一个两难问题,作者的解决思路在图中的式中也得到了直观体现:该思路的核心就是一种全新的loss,叫做Repulsion loss,其包括两个部分:前者是使得预测框更接近目标框,后者是使得预测框要尽可能远离周围的目标框。


 



作者首先研究了现有公开数据集CityPersons[1]中遮挡出现的情况以及这种情况对检测器性能的影响。在CityPersons验证集中,共有3157个行人标注框,其中48.8%的行人相互遮挡的IOU高于0.1,26.4%的行人相互遮挡的IOU高于0.3,可见这种遮挡情况的出现是极其普遍的。那么遮挡到底会给检测器带来什么样的影响?作者训练了Faster R-CNN检测器作为baseline对这个问题进行了回答,如图2所示:评估指标选用行人检测中常用的Miss Rate (MR,越低越好),其中Reasonable-occ代表所有遮挡情况,Reasonable-crowd代表所有遮挡情况中自遮挡的部分,图中列出了在平均20,100,500个虚检情况下的missed detection,从图中可以发现遮挡占据了近60%的席位(蓝色+橙色),而在这60%席位中,自遮挡又占据了近60%。综上,图2足以说明:遮挡是影响行人检测性能的一个非常重要的因素,而行人之间的自遮挡更是重中之重。


解决之道:

针对以上分析,作者决定从loss层面来解决行人之间的自遮挡问题,首先我们直观感受下本文方法RepGT的有效性,如下图所示:图(a)展示了RepGT对漏检的有效性,可以发现在detection score较高时,RepGT的漏检更少,图(b)展示了RepGT对自遮挡情况下的虚检的有效性,可以发现RepGT的虚检中自遮挡所导致的虚检比例更低。


 



上图实验所展示的效果验证了本文的一大贡献:Repulsion loss,其包括三个子模块:



其中第一个子模块LAttr是使得预测框和匹配上的目标框尽可能接近;第二个子模块LRepGT是使得预测框和周围的目标框尽可能远离,第三个子模块LRepBox是使得预测框和周围的其他预测框尽可能远离。


Attraction Term

LAttr采用通用检测框架中的回归loss,可以采用欧式距离、SmoothL1距离以及IoU距离,为了使得和其他算法具有可比性,本文这里采用的是SmoothL1距离:



Repulsion Term (RepGT)

因为LRepGT是使得预测框P和周围的目标框G尽可能远离,这里的周围的目标框是除了匹配上的目标框以外的IoU最大的目标框,也即


从式(4)中可以发现当预测框P和周围的目标框G的IoG越大,则产生的loss也会越大,因此可以有效防止预测框偏移到周围的目标框上。此外,式(5)中的sigma是一个调整LRepGT敏感程度的超参数,文中图5给出了验证性实验,这里不再赘述,详情可见论文。


值得注意的是这里的度量距离为什么选用IoG而不是IoU呢?仔细思考一下,如果是IoU的话,那么只要预测框足够大就一定能够使得RepGT loss减小,而这和我们的预期目标是不一致的,这点作者在文中也有论述。


Repulsion Term (RepBox)

因为LRepBox是使得预测框Pi和周围的其他预测框Pj尽可能远离,Pi和Pj分别匹配上不同的目标框,它们之间的距离采用的是IoU,则RepBox loss定义为:




从式(4)中可以发现当预测框Pi和周围的其他预测框Pj的IoU越大,则产生的loss也会越大,因此可以有效防止两个预测框因为靠的太近而被NMS过滤掉,进而减少漏检。


实验分析

实验细节:

本文的detector采用的是改进版的Faster R-CNN,以保证对比的公平性,验证实验是在CityPersons验证集上做的。对比实验是在Caltech测试集上做的,训练和测试均采用新标注。


实验结果:

首先我们看下在CityPersons验证集上的剥离实验(如下,表3):




可以发现加上RepGT loss和RepBox loss,都可以给baseline带来较为明显的性能提升,尤其是在遮挡情况较为严重的情况下(Heave occlusion)的效果最为显著。本文的两种loss共同将baseline在Reasonable设定下的Miss Rate从14.6减少到了13.2。最后将图像扩大1.5倍得到了最佳的10.9的表现。


同样在Caltech测试集上的表现也是state-of-the-art(如下,表4和图7):在Caltech上再一次证明了本文方法对Heave occlusion的有效性。在Reasonable设定下取得了4.0的表现,据笔者所知,在目前已公开发表的实验结果中是最好的了。


 



总结展望

本文贡献:

(1)深入研究了行人检测中的遮挡问题(包括物体遮挡和行人之间的遮挡),并分析了影响检测器性能的关键因素。

(2)基于对以上问题的分析,从loss层面为行人检测中的自遮挡问题提出了一种全新的解决方案,在CityPersons和Caltech两个行人检测数据集上展现了非常出色的性能。


个人见解:

(1)本文探讨了行人检测中长期以来广为关注的问题——遮挡,是极具启发性的一篇工作。已有工作中主要采用的是‘分part’,‘加语义信息’等思路加以解决,然而‘分part’毕竟需要人工设定,难以穷尽现实场景中纷繁复杂的遮挡情况,本文另辟蹊径从loss的角度,使得网络自动学习的过程中不断提升定位性能,减少了人为干预,从新的角度发挥了深度学习end-to-end的优势。


(2)值得注意的还有表3,尽管repulsion loss将检测器在Reasonable设定下的Miss Rate从14.6减少到了13.2(下降了1.4个点),但仅仅将图像扩大1.5倍,Miss Rate又从13.2下降到了10.9(下降了2.3个点),我们知道图像扩大是为了检测到更多的小目标,足以说明弱小目标的存在对检测器的性能影响同样是不容忽视的。那么,针对弱小目标的检测,能否从loss层面找到一个合理的解决方案呢?期待你的精彩发现。


参考文献:

[1] Citypersons: A diverse dataset for pedestrian detection. CVPR (2016)

[2] Unitbox: An advanced object detection network. ACM MM (2016)

本文为极市原创文章,转载请联系小编微信(H445202522061),同时欢迎大家投稿~





END

—本文为极市原创,欢迎大家投稿,转载请后台留言—






*推荐文章*

PS-GAN:如何合成高质量行人图像提升行人检测性能?

CVPR2018:基于时空模型无监督迁移学习的行人重识别


每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击左下角“阅读原文”立刻申请入群~

登录查看更多
18

相关内容

行人检测( Pedestrian Detection)是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。该技术可与行人跟踪,行人重识别等技术结合,应用于人工智能系统、车辆辅助驾驶系统、智能机器人、智能视频监控、人体行为分析、智能交通等领域。
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack
专知会员服务
44+阅读 · 2020年4月10日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
26+阅读 · 2020年4月1日
专知会员服务
109+阅读 · 2020年3月12日
专知会员服务
41+阅读 · 2020年2月20日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
CVPR 2019 | CSP行人检测:无锚点框的检测新思路
机器之心
3+阅读 · 2019年4月13日
ECCV 2018 | Bi-box行人检测:‘行人遮挡’为几何?
极市平台
13+阅读 · 2018年9月30日
ECCV 2018 | OR-CNN行人检测:为‘遮挡’而生
极市平台
6+阅读 · 2018年9月21日
ECCV 2018 | ALFNet:向高效行人检测迈进(附代码)
极市平台
12+阅读 · 2018年9月14日
CVPR 2018|Cascade R-CNN:向高精度目标检测器迈进
极市平台
10+阅读 · 2018年7月20日
CVPR 2018 |“寻找”极小人脸
极市平台
14+阅读 · 2018年7月11日
【深度】行人检测算法
GAN生成式对抗网络
29+阅读 · 2018年6月3日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
5+阅读 · 2018年4月13日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关资讯
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
CVPR 2019 | CSP行人检测:无锚点框的检测新思路
机器之心
3+阅读 · 2019年4月13日
ECCV 2018 | Bi-box行人检测:‘行人遮挡’为几何?
极市平台
13+阅读 · 2018年9月30日
ECCV 2018 | OR-CNN行人检测:为‘遮挡’而生
极市平台
6+阅读 · 2018年9月21日
ECCV 2018 | ALFNet:向高效行人检测迈进(附代码)
极市平台
12+阅读 · 2018年9月14日
CVPR 2018|Cascade R-CNN:向高精度目标检测器迈进
极市平台
10+阅读 · 2018年7月20日
CVPR 2018 |“寻找”极小人脸
极市平台
14+阅读 · 2018年7月11日
【深度】行人检测算法
GAN生成式对抗网络
29+阅读 · 2018年6月3日
相关论文
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
5+阅读 · 2018年4月13日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员