CVPR2019 | AlphaPose升级!上海交大卢策吾团队开源密集人群姿态估计代码

2019 年 3 月 7 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


作者 | 上海交大MVIG组(卢策吾团队)

编辑 | 金磊

来源 | 新智元


【导读】AlphaPose升级了!上海交大MVIG组(卢策吾团队)构建了CrowdPose数据集,用来衡量算法在拥挤场景中的性能。同时提出了一个高效的算法来解决拥挤人群中的姿态估计问题,实验结果远高于当前最好的算法。


AlphaPose升级了!


拥挤人群场景下的AlphaPose


这个实时多人姿态估计系统,现在可以处理最具挑战的拥挤人群场景了:


  • 上海交大MVIG组(卢策吾团队)建了一个新的数据集——CrowdPose,用来衡量算法在拥挤场景中的性能;

  • 同时提出了一个高效的算法来解决拥挤人群中的姿态估计问题:相比OpenPose提升18mAP、相比Mask-RCNN提升8mAP。


论文已被CVPR2019接收。


论文链接:

https://arxiv.org/abs/1812.00324

代码链接:

https://github.com/MVIG-SJTU/AlphaPose


CrowdPose——拥挤人群姿态估计数据集

为了衡量人体姿态估计算法的性能,学术界与工业界建立了越来越多的公开数据集,如MPII,MSCOCO和AI Challenger。然而,这些数据集的图片通常采集自日常的生活场景,缺乏拥挤人群场景的数据。


主流数据集的拥挤场景分布如图1所示。对于由数据驱动的深度学习方法来说,数据集的分布不均衡,意味着算法性能的不均衡。


图1 主流公开数据集于CrowdPose数据集的拥挤场景数据分布。三个主流数据集的数据中,非拥挤数据占据了绝大部分比例,而CrowdPose数据集有着均匀的数据分布。


随着学术界对人体姿态研究的深入,算法追求像素级的精度,简单场景下的性能已经逐步逼近人类的精度,但在拥挤场景中往往会失效,如图2所示。


图2 随着拥挤程度的加剧,现有开源系统的性能急剧下降。相较于非拥挤的情况,拥挤时算法性能最多下降了20mAP。


针对这样的情况,上海交大MVIG组的研究者开源了CrowdPose数据集。CrowdPose数据集中的图片,有着均匀分布的拥挤程度。既可以评估算法在日常非拥挤情况下的表现,也可以评估其在极度拥挤时的性能。


目前,数据集开源了2万张图片,评估工具也已经上线。在未来的几个月时间內,研究者将会不断扩大数据的规模,开源一个更大的数据集。


实时全局竞争匹配算法

在拥挤人群的场景下,传统的二步法模型往往会失效。主要原因在于:人群过于密集,重合程度太高,每个人的位置难以用人体检测框表示。


图3  人体检测框难以表达人的位置。

 

研究者们提出了一个全局竞争匹配算法,减少了姿态估计模型对于人体框的依赖,同时提高了模型对于复杂人体场景的鲁棒性,在拥挤场景中的表现超越了现有的方法。


图4  本研究中的全局竞争匹配算法概览。模型对于每个检测到的人体框输出一系列候选关键点。人体实例与关键点实例构建成一个稀疏图模型。通过求解稀疏图模型的最佳匹配问题,可得到全局最优的人体姿态估计方案,对密集拥挤的场景有很强的鲁棒性。

 

研究者们设计了一个关节点候选损失函数,通过控制模型输出响应程度不同的多峰值热度图,在人体框不准确的情况下,模型尽可能地输出候选关节点可能的位置。


在得到每个人体框的候选关节点后,通过聚类与链接,消除冗余结果的同时,构建出一个人体实例-候选关节的图模型。该图模型表征了人体实例与每个关节点之间的连接关系与概率。


借助此模型,人体姿态估计问题可转化成图模型中的最佳匹配问题。由于人体姿态问题的特殊,该图模型具有很强的稀疏性,经过研究者们的分析,优化匹配问题的时间复杂度与传统的NMS算法相当。


该方法由于建立了一个全局的图模型,在匹配过程中考虑到了整体的连接方式,因此能很好地改善了二步法中缺乏全局视野的不足。


姿态估计各场景性能大幅提升

在实验中,研究者们对比了该算法与其他开源系统与算法之间的性能。



在CrowdPose数据集中,比当前最好的算法提升了5.2mAP。除此之外,在极度拥挤的子集中,提升了6.2mAP。相较于OpenPose和Detectron(Mask R-CNN)等姿态估计开源系统,性能提升的同时,运行速度快了2到3倍。


表1 在CrowdPose数据集上的定量对比实验


表2 三个场景子集中的性能评估与运行速度对比(简单、一般、拥挤)。

本文的方法分数提升的同时,运行速度也大大增强。

 

未来方向

论文中,研究者们提出了一种新的竞争匹配模型,以解决拥挤场景的人体姿态检测问题。接下来,研究者们会优化竞争匹配模型,对其他形式的拥挤检测问题(如拥挤实例分割)开展进一步研究。


论文链接:

https://arxiv.org/abs/1812.00324

通讯作者:卢策吾

第一作者:李杰锋

代码链接:

https://github.com/MVIG-SJTU/AlphaPose


ps.CVPR2019 accepted list已经放出,极市已将目前收集到的公开论文总结到github上(目前已收集94篇),后续会不断更新,欢迎关注,也欢迎大家提交自己的论文:

https://github.com/extreme-assistant/cvpr2019





*延伸阅读

CVPR2019 | 6D目标姿态估计,李飞飞夫妇等提出DenseFusion

CVPR2019 | 微软、中科大开源基于深度高分辨表示学习的姿态估计算法

【论文整理】CVPR2018 人体姿态相关


小Tips:如何查看和检索历史文章?

有不少小伙伴提问如何号内搜文章,其实很简单,在“极市平台”公众号后台菜单点击极市干货-历史文章,或直接搜索“极市平台”公众号查看全部消息,即可在如下搜索框查找往期文章哦~



ps.可以输入CVPR2019/目标检测/语义分割等等,快去探索宝藏吧~~




每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击左下角“阅读原文”立刻申请入群~

觉得有用麻烦给个好看啦~  

登录查看更多
1

相关内容

卢策吾,上海交通大学研究员,博士生导师,国家海外高层次青年人才,2018年被《麻省理工科技评论》评委35位35岁以下中国科技精英(MIT TR35),2019年获求是杰出青年学者,2020年获上海市科技进步特等奖(排名第三)。在《自然》机器智能子刊、TPAMI、CVPR等高水平期刊和会议发表论近70篇CCF A类论文,11篇扩展版ESI高被引论文),担任《科学》《自然-机器智能》审稿人,CVPR 2020、ICCV 2021、IROS 2021领域主席。研究兴趣包括:行为理解、机器人学习。代表作有人体姿态估计Alphapose(GitHub Star 5000+),HAKE(人体行为引擎),GraspNet(高性能机器人抓取系统)等。
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
54+阅读 · 2020年6月24日
3D目标检测进展综述
专知会员服务
188+阅读 · 2020年4月24日
专知会员服务
109+阅读 · 2020年3月12日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
CVPR2019人脸防伪检测挑战赛Top3论文代码及模型解析
极市平台
47+阅读 · 2019年12月22日
ECCV 2018 | ALFNet:向高效行人检测迈进(附代码)
极市平台
12+阅读 · 2018年9月14日
CVPR 2018|Cascade R-CNN:向高精度目标检测器迈进
极市平台
10+阅读 · 2018年7月20日
【姿态估计比Mask-RCNN提高8%】上交卢策吾团队开源AlphaPose
上海交大机器视觉与智能实验室
9+阅读 · 2018年2月4日
Arxiv
4+阅读 · 2019年9月26日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关VIP内容
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
54+阅读 · 2020年6月24日
3D目标检测进展综述
专知会员服务
188+阅读 · 2020年4月24日
专知会员服务
109+阅读 · 2020年3月12日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
相关论文
Arxiv
4+阅读 · 2019年9月26日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员