CVPR2020个人总结

广场舞的新一代领导者

第一次参加CVPR2020，遇到了CVPR历史上第一次的virtual conference。

一些吐槽

1. 由于身在法国，而CVPR中各个项目时间设计主要还是以美国为主，所以参加各种活动并不是很方便，中间错过了几个活动和paper答疑，比较惋惜。

2. 不知道美国或者中国体验怎么样，我在法国的体验是CVPR的网站非常不稳定，时不时崩溃，或者加载速度很慢，非常消耗耐心，而且本来想看的论文就比较多，这样一来在每篇paper上能花的时间就更短。virtual conference想要取代实体conference还需要很长的时间。

3. virtual conference导致大家整体情绪不高，导致有的poster作者不在，有的poster好几个作者等半天没人来，对双方的积极性打击都很大。

4. 既然已经是virtual conference，对oral和poster视频的长度还有限制，oral要求5分钟长度的视频，poster则为1分钟。结果导致oral视频太长，很多oral文章根本讲不到5分钟，作者可以悠哉悠哉的讲paper，还能展示一堆可视化结果。与之相反，poster 1分钟太短，大家基本都尽力用了自己的最快语速，结果还是讲不清自己文章的内容，导致观众看完视频之后还是云里雾里，进了直播间还需要作者再讲一遍自己的东西，中间出现了很多观众为了防止浪费时间，选择忽略作者做的视频直接进直播间，这种做法一定程度上也浪费了作者做视频的精力和时间。

5. Workshop因为有些老师时区不同，只能提前录好视频，然后在workshop上由主持人播放，需要主持人一边放视频一边开直播，有时候主持人的网速不太好，会导致直播效果大打折扣。

一些亮点

1. 观众热情不高也并不是完全没有好处，我就趁着没人逛了好几个poster，作者因为长时间等不到人，出现一个人询问自己的工作时也会显得格外的热情。同时因为没其他人打扰，可以尽情的问作者各种问题，直到完全搞懂为止，我也因此搞懂了一些之前从来没接触过的领域的paper。

2. 由于是virtual conference，所以对参会的衣着没有要求，而且在参会同时干其他事情也不会影响，让人能做到，起床-睁眼-看poster。

一些感悟

参加CVPR就像参加华山论剑，无论是看各种高手过招，还是自己亲自上阵，都能学到很多东西，这里总结一下我参会之后的一些感悟和一些有意思的idea

1. Unsupervised Learning

无监督学习是未来。这句话其实已经存在了很久了，但在这次CVPR上体现的尤甚。最明显的是这次的Best paper给了无监督学习，而oral paper里面无监督学习也占了不小的比例。

现在无论是CV还是NLP，都一定程度上证明了大数据量的有效性（BERT for NLP，BiT for CV），但是大数据量随之而来的，是数据标注成本高，数据难标注等问题。无监督的出发点便是利用没有标注的数据进行学习，从而摆脱对数据标注的依赖，海量的日常无标注数据从而可以得到应用。但是天下没有免费的午餐，想要不标注，还想让网络学的好，难度可想而知。

就我个人了解，目前unsupervised learning中比较有代表性的任务主要分两个方向，一个是做low-level task，以无监督的方式学光流，深度，correspondence等信息。一个是representation learning，以无监督的方式来学习representation，以期学到的representation可以帮助down-stream tasks。low-level task中比较知名的工作有[1, 2]. 而representation learning中比较有名的就是[3, 4, 5, 6, 7, 8, 9]. 这两年间比较火的方式是用instance discrimination的方式来做，并且在down-stream task上取得了超过supervised learning的效果。需要注意的是，representation learning经常利用down-stream task来validate自己学到的representation的有效性，但是这也只是验证representation的一种方式，验证的也是所学representation的一方面，并不能通过这个结果就武断的否定supervised learning给我们带来的增益，也不能武断地下类似于unsupervised learning学到的feature之后就一定比supervised learning学到的好的定论，只能说目前采用的这种unsupervised的方式学到的representation，比之前用supervised方式学到的representation更适合于所选定的down-stream task，也许换一种down-stream task，这种结论便不再成立。

以下是几篇这次CVPR我看到的采用无监督方式的比较有趣的论文[8, 10, 11, 12, 13, 14, 15]。

2. Self-supervised Learning

其实self-supervised learning本应该是可以放在unsupervised learning那一节的，但是鉴于目前很多工作都是把self-supervised和supervised结合起来，本质上是一种semi-supervised方式，而且self-supervised现在热度极高，所以单独用一节来讨论它。在这里特别提一下self-supervised learning + video这个方式，出发点是video的临近帧之间有着良好的consistency，内容的连续性良好，从而格外适合做unsupervised learning。例如，其中一派，动机是为了解决video的稀疏标注问题，核心思想是利用video中已标注的帧对未标注的帧进行监督，所以只需要想到一个办法，将无标注的帧wrap到有标注的帧上，再利用有标注的帧对无标注的帧进行监督，就可以把无标注的帧利用起来。想法很简单，只要选好实现的方式，最终效果就会很明显。可以看到今年CVPR各个领域都有论文采用了类似的idea，有做video segmentation的[16]，有做3D hand pose + shape recovery的[17]。还有一派，是基于video的consistency，在网络训练过程中加入consistency loss，从而让网络对连续帧的预测结果保持连贯，这类文章有[18, 19, 20]。

3. 3D representation

参加一个有关3D重建的workshop的时候，David Forsyth提到了3D representation的问题，感觉很有意思。他的论点主要在于，做3D重建，应该注意的是point cloud，mesh等等这些都只是3D representation的一种，它们各有优势也有不足，它们应该只是作为工具为最终的3D重建而服务，而不应该成为限制我们思考问题的枷锁，我们需要更多的思考如何更合理的重建3D，是否存在比现有工具更好的3D representation。同时他还举了一些生物学上的例子，比如沙漠中的蚂蚁并没有类似于人一样重建周围环境的能力，但是它们一样可以保证在沙漠中不迷路，其原因在于它们无论从巢穴出走了多远，始终都知道巢穴对于它们现在位置的方向，而这个方向感（可以具像化为一个向量），就是蚂蚁重建3D世界所使用的representation。这段讲话很有启发性，鼓励学界从根本上思考3D重建目前的问题。

与之相关的，[14]在文中提出了一种隐式学习3D representation的方式，文中对所学出的来3D representation并没有加入直接对监督，只是要求网络合成的图片和目标图片一致。但是文中是把这个representation当作point cloud来使用，并在文中可视化了这个representation，发现与point cloud基本一致。方式非常巧妙。

4. Small changes that make big impact

最近也出了很多文章，基于deep learning现有方式，只提出了一点改进，却能对结果造成很大影响，不得不让人感叹devil is in the details，同时也让我们开始重新审视之前习以为常的方式方法，学术总是在螺旋中前进。例如[21]中，作者将activation function由relu替换为了文中新提出的siren，效果便得到了极大的改善。[22]中修改了常用的batch norm layer，便很好的缓解了batch size大小对网络结果的影响。从更高维的角度来看，我们人类也许就像是一个实验室中的黑猩猩，笨拙地拿着钥匙希望打开出去的大门，学会与学不会的距离，也许就在差在插入钥匙之后再转动一下这个细微的动作，但在没有任何帮助的情况下，学会这个动作也许也会需要我们很长时间。

5. Think more

听了Alexei的talk之后很有感触，尤其是他说的：我们做research的时候，在提出一个问题的时候出发点都是好的，但一定要注意我们衡量这个问题的方式，也许我们衡量的方式并不是完全合适，所以需要多思考多质疑。这跟最近很多rethinking各类task的文章动机不谋而合[23, 24]。我们做research希望针对的是更general的问题，数据集仅仅是为了validate idea的有效性，而不是为了刷爆evaluation metrics。

附：

一些有趣的文章推荐[25, 26, 27, 28, 29, 30, 31, 32, 33]

— 纸上得来终觉浅，绝知此事要躬行
— 俺也一样！

[1] Unsupervised Monocular Depth Estimation with Left-Right Consistency

[2] MirrorFlow: Exploiting Symmetries in Joint Optical Flow and Occlusion Estimation

[3] Unsupervised representation learning by predicting image rotations

[4] Unsupervised learning of visual representations by solving jigsaw puzzles

[5] Representation learning with contrastive predictive coding

[6] Contrastive multiview coding

[7] Learning representations by maximizing mutual information across views

[8] MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

[9] Unsupervised feature learning via non-parametric instance discrimination

[10] MAST: A Memory-Augmented Self-Supervised Tracker

[11] Just Go with the Flow: Self-Supervised Scene Flow Estimation

[12] Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

[13] Self-Supervised Viewpoint Learning From Image Collections

[14] SynSin: End-to-end View Synthesis from a Single Image

[15] Self-supervised Learning of Interpretable Keypoints from Unlabelled Videos

[16] Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation

[17] Leveraging Photometric Consistency over Time for Sparsely Supervised Hand-Object Reconstruction

[18] Consistent Video Depth Estimation

[19] VIBE: Video Inference for Human Body Pose and Shape Estimation

[20] Height and Uprightness Invariance for 3D Prediction from a Single View

[21] Implicit Neural Representations with Periodic Activation Functions

[22] Filter Response Normalization Layer: Eliminating Batch Dependence in the Training of Deep Neural Networks

[23] A Metric Learning Reality Check

[24] Google Landmarks Dataset v2 - A Large-Scale Benchmark for Instance-Level Recognition and Retrieval

[25] NASA Neural Articulated Shape Approximation

[26] UniGrasp: Learning a Unified Model to Grasp with N-Fingered Robotic Hands

[27] Self-Supervised Scene De-occlusion

[28] Peek-a-Boo: Occlusion Reasoning in Indoor Scenes With Plane Representations

[29] Visual Chirality

[30] Single-Stage Semantic Segmentation from Image Labels

[31] Pixel Consensus Voting

[32] Towards Better Generalization: Joint Depth-Pose Learning without PoseNet

[33] Coherent Reconstruction of Multiple Humans from a Single Image

编辑于 2020-06-21 04:53

计算机视觉

CVPR