CVPR2019 oral | CPNet : 对应提议网络

2019 年 6 月 17 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

作者：Hitch

来源：https://zhuanlan.zhihu.com/p/66733126

已获作者授权，请勿二次转载

回顾去年cpvr2018的论文，行为分析中最出彩的Non-local Neural Network这篇论文使得动作识别在单流网络上的效果得到极大的提升，也给后续的相关研究者在全局注意力机制等方面有更多的重视，比如CVPR19的Dual Attention Network for semantic segmentation 和NIPS18的 double Attention for action recognition。而就目前的趋势来看Two-stream和普通3D的网络会越来越难发表，而做RGB流来生成Motion信息或者结合注意力机制来获取long-term dependency的文章将更具吸引力。双流网络主要原因还是光流生成太慢，会导致inference的速度也很慢，同时也有大量的two-stream-fusion的工作已经被发表，目前Fusion的方法还有一定的空间可以发文章，但也不容乐观，已经看到相关的Fusion工作被拒了。而普通3D网络在CVPR18和ECCV18上基本上研究的已经差不多很难留给后人发文章。

Arxiv上这篇Learning Video Representations from Correspondence Proposals已经被CVPR19 ORAL接受。这篇文章首先就提出视频帧之间的对应性存在大量关于动态内容的信息。他们为了能够捕获这种信息，提出了Correpondence Proposals这个东西，光看摘要的话简直以为就是Non-local换了个名字，但其实这篇文章它的思想来自于自动驾驶的里点云的这种规则信息之间相关度的提取，总之还是很像Non-local了。其核心思想在于对于每个视频的特征它提取和组合k个最近领的作为它潜在语义空间的对应，然后它使用最大池化来选择最强的那组对应(Correspondece)，最后它选择的那对对应关系作为输出就被认为是视频的动态特征。这篇文章的参考价值和新颖性很高，实验充分，而且网络的参数也不多，但就效果来看也没有比Non-local好很多，算是一个Non-local的比较大的改进，同时它的训练过程有很多Trick。下面介绍文章内容，如有不足烦请指教。

论文地址：https://arxiv.org/pdf/1905.07853.pdf

Motivation

这篇文章的核心思想是视频中存在大量的静态和动态特征，而静态特征是属于结构化的（CNN易学的），而动态特征是另一种模式（非结构化的），比如相关的物体可以任意的远。与Non-local提出的Long-term dependency（长期依赖关系）不同，它提出了Long-term motion，这也和文章中提出的物体的移动，视角的变换有关。文章中还指出，视频中对应性的三个属性，分别为

对应的位置应该有相似的视觉和语义特征
对应的位置可以囊括任意长的空间或时间距离
和其它帧之间潜在对应的位置应该是少数的

故事讲好了，就剩下方法了，它认为要这么学习这种特征刚好点云里相关工作可以适合它。

CP Module

他在这里提出了用CP module来获取对应关系。CP module的输入为视频特征，然后分为两部（1）k-NN组合（2）对应关系嵌入。

第一步，为了提取出前K个对应关系，它使用top-k的方法来提取。既然为了提取对应关系，那么先要进行矩阵乘法来得到，一个（THW，THW)的矩阵，与Non-local不同的是它计算相关性使用Negative l2距离，同时它为了避免和自己的相关性也计算进去，将左上角的对角线那个值全部设为负无穷，随后使用top-k来的到一个（THW，K）的对应关系。

第二步，则是对应关系嵌入层。这一层的目的是为了对每组关系学习一个特征。这层就和Pointcnn很像了，它根据第一步得到的特征将每个值所对应的坐标点作为这一层的输入，以及k个坐标之间对应的差，从而形成了一对对应关系。这样它得到的特征相当于自动驾驶里激光雷达的点云。随后将这些特征送入MLP和最大池化层。

文中描述CP module没有超过一页，随后就是小数据集实验和消融实验。

Toy Dataset

文中自己建立了一个小数据集，只有上下左右的方块运动，然而NL,ARTNET,TRN都表现不好，只有CPNet表现好，侧面烘托出CPNet能学到更多的位置信息。

Kinetics， Jester V1 and Something-Something V2

文中分别做了Kinetics，Jester和Something-Something的实验，结果可以看出来他们结果并没有很大的提升，TSM的结果因为时间原因也没有记录上去，还是用了5Crop，具体细节还是要看实验部分。

Visualization

文中还可视化了对应关系和feature maps如何改变的。

论文小结

这篇文章主要提出了计算K个对应提议关系特征然后每组特征分别送入神经网络模型，随后使用最大池化来学习到一个新的特征的Module。这个module也被证明了可以有效学习到运动关系，不论是基于图片的还是基于帧的。作为Non-local的一种改进方式，CPnet展现出了另一种思路用点云的方法取计算对应关系，其缺点作为Non-local的改进方法性能没有得到很大的提升，但作为研究者要学习其精髓和论文的写作方式，整篇论文读下来可以看出，它的实验非常充分。