CVPR2020 | 论文解读三则-知识驱动的行为理解(HAKE)

2020 年 3 月 9 日 极市平台

加入极市专业CV交流群,与10000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~


作者:卢策吾

知乎链接:https://zhuanlan.zhihu.com/p/109139026

本文已由作者授权转载,未经允许,不得二次转载


我们组近两年一直希望从知识驱动角度解决行为理解,希望构造一个action上类似bert 一样的强大工具。这次CVPR 2020,我们组的博士生李永露同学一次中了三篇论文,全是围绕 知识驱动的行为理解(Human Activity Understanding)方面的工作。 他也是HAKE的第一作者。

HAKE是一个全新的人类行为知识引擎, 主页: hake-mvig.cn/home/

上面代码和数据都有。另外提一下,李永露同学属于踏实科研的典范。他其实已经完全掌握灌水顶会的技能,手头也很多东西,在同龄人疯狂发论文的大背景下,沉住气做solid的工作,不急着发论文,这次中三篇CVPR完全是顺其自然。

介绍一下我们这次的三篇CVPR论文:

1. PaStaNet: Toward Human Activity Knowledge Engine



之前的方法大多基于实例级别的特征或知识(human,object)出发去学习action,但是对于human-object interaction这种复杂的行为,仅靠这种粗粒度的知识是不够的(目前大家的性能都卡在了一个台阶上),且训练出来的模型常因不同数据集的action种类设定不同而很难泛化(domain gap)。

这次我们提出了一个全新的思路,除了实例知识这条路径,开辟了一条人体部位语义知识的学习路径。如上图,一个“踢球”的动作可以被分解(parsing)为一系列part级别的知识。最大的好处,是我们发现part级别的动作状态(part states)种类,要远远少于整体动作的种类,举个栗子,就好像26个字母和成千上万单词的关系。

有了学习part states的能力,我们就能模型“组合”推理出整体的动作,且这种知识是*可学习*可迁移*的。

我们为此花费一年半时间准备了超过10万张动作图像的part知识库HAKE,并提出了Activity2Vec模型。同ImageNet训练backbone一样,利用PaStaNet训练的Activity2Vec,可以很好地把大量part知识迁移到新任务上,例如,在大型的行为数据上,我们取得了非常好的效果提升:HICO(+6.4mAP),HICO-DET(+5.0mAP);甚至跨模态在视频数据集AVA也有3.6mAP的提升。

同时,我们还证明了,在模型能够完美估计part states时,我们的方法可以直接爆炸式提升性能,HICO(65mAP, 目前传统方法40mAP左右),HICO-DET(34mAP,传统方法20mAP左右),AVA(49mAP,sota的video模型如slowfast在28mAP左右)。我们相信,HAKE可能成为行为理解领域非常重要的知识库和引擎,驱动后续的研究把行为理解的性能再提升一个台阶。

目前我们正积极把HAKE扩展到视频行为理解领域,争取在大型视频数据集如AVA上构建更加强劲的知识引擎,并引入更强的推理方法。

下面介绍另一个HOI领域的工作:

2. Detailed 2D-3D Joint Representation for Human-Object Interaction


基于2D视觉的行为理解一直受到视角、遮挡问题的干扰,例如“吃饭”这个动作,在不同角度拍摄的图像在2D上差异巨大,这就给学习带来了很多困难,因此我们提出了基于single-view 3D recover的多模态学习方案,进一步拓展HOI方向的范式。


通过单目恢复细粒度的人体结构和物体空间位置信息,可以在3D space“重建”整个human-object interaction我们可以很好地校正多视角带来的歧义,有效提升HOI的学习。下面是一些有趣的结果。



3. Symmetry and Group in Attribute-Object Compositions


最后介绍另一个和HOI(human-object interaction)类似的组合式学习问题:attribute-object compositional learning, 如让模型去学习red-apple这个概念,不仅要识别出apple,还需要知道它的属性,这是比物体识别更难的高阶语义学习问题。我们这次提出了一种全新的视角,在群论的启发下,提出了一种基于对称性的学习方法:


如上图,除了已知的组合性(compositionality)和上下文相关性(contextuality)外, 我们发现了一种新的属性:对称性(symmetry)。基于这种新的属性,我们引入了群论中对于构成群需要的四大公理作为学习目标函数和约束,并在对称性的启发性提出了一种全新的属性分类方法RMD(relative moving distance),有效改进了attribute-object的学习性能,尤其在attribute分类效果上有了非常好的结果。




-END -


推荐阅读:


极市平台视觉算法季度赛,提供真实应用场景数据和免费算力,特殊时期,一起在家打比赛吧!


添加极市小助手微信 (ID : cv-mart) ,备注: 研究方向-姓名-学校/公司-城市 (如:目标检测-小极-北大-深圳),即可申请加入 目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群 ,更有 每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、 干货资讯汇总、行业技术交流 一起来让思想之光照的更远吧~


△长按添加极市小助手


△长按关注极市平台,获取最新CV干货


觉得有用麻烦给个在看啦~  

登录查看更多
20

相关内容

CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
34+阅读 · 2020年6月17日
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
50+阅读 · 2020年5月16日
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
78+阅读 · 2020年3月3日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
132+阅读 · 2020年2月13日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
AAAI 2020论文解读:关注实体以更好地理解文本
AI科技评论
17+阅读 · 2019年11月20日
基于弱监督的视频时序动作检测的介绍
极市平台
30+阅读 · 2019年2月6日
行人对齐+重识别网络(论文解读)
极市平台
7+阅读 · 2017年10月11日
肖仰华 | 基于知识图谱的用户理解
开放知识图谱
13+阅读 · 2017年9月29日
Arxiv
29+阅读 · 2019年3月13日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
5+阅读 · 2018年10月4日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
5+阅读 · 2017年11月13日
VIP会员
相关VIP内容
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
34+阅读 · 2020年6月17日
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
50+阅读 · 2020年5月16日
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
78+阅读 · 2020年3月3日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
132+阅读 · 2020年2月13日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
相关论文
Arxiv
29+阅读 · 2019年3月13日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
5+阅读 · 2018年10月4日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
5+阅读 · 2017年11月13日
Top
微信扫码咨询专知VIP会员