近期必读的六篇 NeurIPS 2020【视频表示学习（VRL）】相关论文和代码

【导读】机器学习顶会 NeurIPS 2020, 是人工智能领域全球最具影响力的学术会议之一，因此在该会议上发表论文的研究者也会备受关注。据官方统计，今年NeurIPS 2020 共收到论文投稿 9454 篇，接收 1900 篇（其中 oral 论文 105 篇、spotlight 论文 280 篇），论文接收率为 20.1%。NeurIPS 2020正在开会，小编发现视频表示学习（Video Representation Learning）相关的接受paper不少，视频理解在NeurIPS上越来越多，也显示出视频理解这个任务的火热程度。

为此，这期小编为大家奉上NeurIPS 2020必读的六篇视频表示学习（Video Representation Learning）相关论文——上下文目标嵌入、自监督视频表示学习、多模态自监督、解纠缠视频表示、自监督协同训练、跨模态音视频聚类

NeurIPS 2020 Accepted Papers : https://proceedings.neurips.cc/paper/2020

NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI

1. COBE: Contextualized Object Embeddings from Narrated Instructional Video

作者：Gedas Bertasius, Lorenzo Torresani

摘要：现实世界中的许多目标的视觉外观都会发生巨大变化。例如，番茄可以是红色或绿色，切成薄片或切碎的，新鲜或油炸的，液体或固体的。训练单个检测器以准确识别所有这些不同状态的西红柿是一项挑战。另一方面，上下文提示（例如，刀，切菜板，滤网或平底锅的存在）通常强烈指示目标在场景中的出现方式。识别此类上下文线索不仅有助于提高目标检测的准确性或确定目标的状态，而且有助于理解其功能特性并推断正在进行或即将发生的人与目标之间的交互。然而，在现实世界中，有监督的识别目标状态及其上下文的方法受到数据的长尾（long-tailed），开放式分布的影响，这将需要大量标注来捕获所有目标的不同形式的表观。我们提出了一个新的框架，用于从自动转录的教学视频中学习上下文的目标嵌入（COBE），而不是依赖此任务的手动标记数据。我们通过训练视觉检测器来预测目标的上下文词嵌入及其关联的叙述，从而利用语言的语义和组成结构。这使得能够学习根据语义语言度量与概念相关的目标表示。我们的实验表明，我们的检测器学会了预测各种各样的上下文目标信息，并且在少样本和零样本学习的设置中非常有效。

网址：

https://proceedings.neurips.cc/paper/2020/hash/acaa23f71f963e96c8847585e71352d6-Abstract.html

2. Cycle-Contrast for Self-Supervised Video Representation Learning

作者：Quan Kong, Wenpeng Wei, Ziwei Deng, Tomoaki Yoshinaga, Tomokazu Murakami

摘要：我们提出了循环对比学习（Cycle-Contrastive Learning，CCL），这是一种用于学习视频表示的新颖的自监督方法。遵循视频及其帧之间存在和包含关系的性质，CCL设计为分别考虑帧和视频在各自域中的对比表示来查找帧和视频之间的对应关系。它与最近的方法不同，后者仅学习跨帧的对应关系。在我们的方法中，帧和视频表示是从基于R3D架构的单个网络中学习的，具有共享的非线性变换，可以在帧丢失之前嵌入帧和视频特征。我们证明了CCL学习的视频表示可以很好地转移到视频理解的下游任务，在UCF101，HMDB51和MMAct上最近邻检索和动作识别任务中取得了很好的效果。

网址：

https://proceedings.neurips.cc/paper/2020/hash/5c9452254bccd24b8ad0bb1ab4408ad1-Abstract.html

3. Labelling unlabelled videos from scratch with multi-modal self-supervision

作者：Yuki Asano, Mandela Patrick, Christian Rupprecht, Andrea Vedaldi

摘要：深度学习当前成功很大一部分在于数据的有效性--更确切地说，是标记数据。然而，使用人工注释标记数据集的成本仍然很高，尤其是对于视频而言。虽然在图像领域中，最近的方法已允许在无监督的情况下为未标记的数据集生成有意义的（伪）标签，但视频领域缺少这种发展，因为学习特征表示是当前关注的领域。在这项工作中，我们（a）展示了视频数据集的无监督标记并非来自免费的特征编码器，并且（b）提出了一种新颖的聚类方法，该方法可以利用音频和视觉模态之间的自然对应关系，对视频数据集进行伪标记而无需任何人工注释。广泛的分析表明，生成的聚类与真实的人类标签具有高度的语义重叠。我们还将展示有关普通视频数据集动力学，动力学声音，VGG声音和AVE2的无监督标记的第一个基准测试结果。

代码：

https://github.com/facebookresearch/selavi

网址：

https://proceedings.neurips.cc/paper/2020/hash/31fefc0e570cb3860f2a6d4b38c6490d-Abstract.html

4. Learning Disentangled Representations of Video with Missing Data

作者：Armand Comas, Chi Zhang, Zlatan Feric, Octavia Camps, Rose Yu

摘要：在学习视频序列表示时，数据丢失问题是一个严峻的挑战。我们提出了一个解纠缠估算视频自编码器（Disentangled Imputed Video autoEncoder，DIVE），这是一种深度生成模型，可以在缺少数据的情况下估算和预测未来的视频帧。具体来说，DIVE引入了缺失潜在变量，将隐藏的视频表示分解为每个目标的静态和动态外观，姿势和缺失因子。DIVE会估算缺少数据的每个目标的轨迹。在具有各种缺失场景的移动MNIST数据集上，DIVE的性能大大优于现有基准水平。我们还对现实世界中的MOTSChallenge行人数据集进行了比较，证明了我们的方法在更现实的环境中的实用价值。

代码：

https://github.com/Rose-STL-Lab/DIVE

网址：

https://proceedings.neurips.cc/paper/2020/hash/24f2f931f12a4d9149876a5bef93e96a-Abstract.html

5. Self-supervised Co-training for Video Representation Learning

作者：Tengda Han, Weidi Xie, Andrew Zisserman

摘要：本文的目标是视觉自监督视频表示学习。我们做出了以下贡献：（i）我们研究了在基于实例的信息噪声对比估计（InfoNCE）训练中添加语义类肯定句的好处，表明这种形式的监督式对比学习可以明显改善性能；（ii）我们提出了一种新颖的自监督协同训练方案，以通过使用一个视图获取同一数据源的正视图样本，以此来利用同一数据源的不同视图，RGB流和光流的互补信息来改善流行的infoNCE损失；（iii）我们在两个不同的下游任务（动作识别和视频检索）上全面评估所学表示的质量。在这两种情况下，所提出的方法都展示了最新的技术或与其他自监督方法相当的性能，同时训练的效率明显更高，即需要更少的训练数据即可达到类似的性能。

网址：

https://proceedings.neurips.cc/paper/2020/hash/3def184ad8f4755ff269862ea77393dd-Abstract.html

6. Self-Supervised Learning by Cross-Modal Audio-Video Clustering

作者：Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, Du Tran

摘要：视觉和音频模态高度相关，但是它们包含不同的信息。它们之间的强相关性使得可以高精度地预测彼此的语义。与在模态内学习相比，它们的固有差异使跨模态预测成为视频和音频表示形式的自监督学习的潜在更有意义的任务。基于这种直觉，我们提出了跨模态深度聚类（Cross-Modal Deep Clustering，XDC），这是一种新颖的自监督方法，它利用一种模态（例如音频）中的无监督聚类作为另一种模态（例如视频）的监督信号。这种跨模态监督有助于XDC利用语义相关性和两种模态之间的差异。我们的实验表明，XDC优于单模态聚类和其他多模态变体。XDC在多种视频和音频基准测试的自监督方法中实现了最先进的准确性。最重要的是，我们针对大规模无标签数据进行预训练的视频模型明显优于针对ImageNet和Kinetics在HMDB51和UCF101上进行动作识别的预训练的相同模型。据我们所知，XDC是第一个自监督学习方法，其性能优于大规模有监督的针对相同体系结构上的动作识别的预训练模型。

网址： https://proceedings.neurips.cc/paper/2020/hash/6f2268bd1d3d3ebaabb04d6b5d099425-Abstract.html

成为VIP会员查看完整内容