深度学习在多个领域都取得了突破性进展,从图像、语言和视频理解等核心机器学习任务,到医疗、自动驾驶和农业等现实行业。它的成功是通过为神经网络提供人工监督,从大型标记数据集(如ImageNet)自动学习分层数据表示。然而,获取大规模的标签数据通常是一个非常耗时和昂贵的过程。为应对这一挑战,本文挑战多模态视频数据的自监督极限。视频数据通常包含多种形式,如图像、音频、转录语音和可免费获得的文本标题。这些模态通常共享冗余语义信息,因此可以作为伪标签来监督彼此进行表示学习,而不需要使用人工标签。在不依赖标签数据的情况下,我们能够在从互联网收集的数百万个视频剪辑的非常大规模的视频数据上训练这些深度表示。通过在各种领域建立新的最先进的性能,展示了多模态自监督的可扩展性好处:视频动作识别、文本到视频检索、文本到图像检索和音频分类。我们还引入了数据转换、模型架构和损失函数方面的其他技术创新,以使用多模态自监督进一步改进对这些深度视频表示的学习。本文的第二个贡献是改进深度表示的可解释性的新工具,因为要破译这些深度表示中编码的关键特征是非常困难的。对于图像,我们展示了如何使用摄动分析来分析网络的中间表示。对于视频,我们提出了一种新的聚类方法,使用Sinkhorn-Knopp算法将深度视频表示映射到人类可解释的语义伪标签。本论文的研究成果为进一步提高深度视频表示学习的可扩展性和可解释性做出了贡献。

https://ora.ox.ac.uk/objects/uuid:3a0721a0-025e-423c-b441-2d7af5d960da

成为VIP会员查看完整内容
76

相关内容

牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。

【CMU博士论文】无人工监督的视觉表示与识别,126页pdf
专知会员服务
34+阅读 · 2022年12月14日
【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
132+阅读 · 2022年10月4日
【斯坦福博士论文】具有学习约束的深度表示,239页pdf
专知会员服务
60+阅读 · 2022年9月13日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
50+阅读 · 2022年8月31日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
213+阅读 · 2020年10月8日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
Arxiv
3+阅读 · 2022年12月15日
Transformers in Medical Image Analysis: A Review
Arxiv
39+阅读 · 2022年2月24日
已删除
Arxiv
31+阅读 · 2020年3月23日
Arxiv
12+阅读 · 2019年2月26日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
相关论文
微信扫码咨询专知VIP会员