【CVPR2021】通过上下文和运动解耦的自监督视频表示学习 - 专知

会员服务 ·

0

【CVPR2021】通过上下文和运动解耦的自监督视频表示学习

2021 年 4 月 15 日 专知

视频行为理解中的一个核心难点是「场景偏差」问题。比如，一段在篮球场跳舞的视频，会被识别为打篮球，而非跳舞。我们提出一种自监督视频表征学习方案，通过直接在代理任务中显式解耦场景与运动信息，处理「场景偏差」难题。值得注意的是，本方案中，解耦的场景与运动信息均从「视频压缩编码」中提取得到。其中场景由关键帧 (keyframes) 表示，运动由运动向量 (motion vectors) 表示，二者提取速度是光流的100倍。基于该解耦方案预训练的视频网络模型，迁移至行为理解和视频检索两项下游任务，性能均显著超过SOTA。

https://www.zhuanzhi.ai/paper/591341f12cfa1759edac18c262ce5a31

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“CMDV” 就可以获取《【CVPR2021】通过上下文和运动解耦的自监督视频表示学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

1

相关内容

视频表示学习

视频表示学习

【CVPR2021】用于行人重识别的无监督多源域自适应

专知会员服务

21+阅读 · 2021年5月1日

【CVPR2021】无监督时空表示学习的大规模研究

专知会员服务

23+阅读 · 2021年5月1日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

一文概览 CVPR2021 最新18篇 Oral 论文

专知会员服务

26+阅读 · 2021年3月7日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】自监督对应学习的对比转换

专知会员服务

20+阅读 · 2020年12月11日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【NeurIPS2020】点针图网络，Pointer Graph Networks

【NeurIPS2020】点针图网络，Pointer Graph Networks

专知

9+阅读 · 2020年9月27日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知

7+阅读 · 2020年4月7日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

Cross-Modal Discrete Representation Learning

Arxiv

18+阅读 · 2021年6月10日

Self-supervised Video Representation Learning by Context and Motion Decoupling

Arxiv

6+阅读 · 2021年4月2日

Small-Scale Spatial-Temporal Correlation Modeling for Reconfigurable Intelligent Surfaces

Arxiv

0+阅读 · 2021年4月1日

CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation

Arxiv

8+阅读 · 2020年12月7日

Natural Language Inference in Context -- Investigating Contextual Reasoning over Long Texts

Arxiv

6+阅读 · 2020年11月10日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

ContextDesc: Local Descriptor Augmentation with Cross-Modality Context

Arxiv

3+阅读 · 2019年4月8日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Language Modeling with Gated Convolutional Networks

Arxiv

5+阅读 · 2017年9月8日

VIP会员

相关主题

视频表示学习

视频表征学习

相关VIP内容

【CVPR2021】用于行人重识别的无监督多源域自适应

专知会员服务

21+阅读 · 2021年5月1日

【CVPR2021】无监督时空表示学习的大规模研究

专知会员服务

23+阅读 · 2021年5月1日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

一文概览 CVPR2021 最新18篇 Oral 论文

专知会员服务

26+阅读 · 2021年3月7日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】自监督对应学习的对比转换

专知会员服务

20+阅读 · 2020年12月11日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【NeurIPS2020】点针图网络，Pointer Graph Networks

【NeurIPS2020】点针图网络，Pointer Graph Networks

专知

9+阅读 · 2020年9月27日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知

7+阅读 · 2020年4月7日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

相关论文

Cross-Modal Discrete Representation Learning

Arxiv

18+阅读 · 2021年6月10日

Self-supervised Video Representation Learning by Context and Motion Decoupling

Arxiv

6+阅读 · 2021年4月2日

Small-Scale Spatial-Temporal Correlation Modeling for Reconfigurable Intelligent Surfaces

Arxiv

0+阅读 · 2021年4月1日

CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation

Arxiv

8+阅读 · 2020年12月7日

Natural Language Inference in Context -- Investigating Contextual Reasoning over Long Texts

Arxiv

6+阅读 · 2020年11月10日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

ContextDesc: Local Descriptor Augmentation with Cross-Modality Context

Arxiv

3+阅读 · 2019年4月8日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Language Modeling with Gated Convolutional Networks

Arxiv

5+阅读 · 2017年9月8日

大家都在搜

大型语言模型

IJCAI2025教程

无人机系统

久别重逢话双塔

国防科技创新

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员