【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf - 专知VIP

会员服务 ·

42

牛津大学 (University of Oxford) · 博士论文 · 多模态数据 · 表示学习 ·

2022 年 10 月 30 日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

深度学习在多个领域都取得了突破性进展，从图像、语言和视频理解等核心机器学习任务，到医疗、自动驾驶和农业等现实行业。它的成功是通过为神经网络提供人工监督，从大型标记数据集(如ImageNet)自动学习分层数据表示。然而，获取大规模的标签数据通常是一个非常耗时和昂贵的过程。为应对这一挑战，本文挑战多模态视频数据的自监督极限。视频数据通常包含多种形式，如图像、音频、转录语音和可免费获得的文本标题。这些模态通常共享冗余语义信息，因此可以作为伪标签来监督彼此进行表示学习，而不需要使用人工标签。在不依赖标签数据的情况下，我们能够在从互联网收集的数百万个视频剪辑的非常大规模的视频数据上训练这些深度表示。通过在各种领域建立新的最先进的性能，展示了多模态自监督的可扩展性好处:视频动作识别、文本到视频检索、文本到图像检索和音频分类。我们还引入了数据转换、模型架构和损失函数方面的其他技术创新，以使用多模态自监督进一步改进对这些深度视频表示的学习。本文的第二个贡献是改进深度表示的可解释性的新工具，因为要破译这些深度表示中编码的关键特征是非常困难的。对于图像，我们展示了如何使用摄动分析来分析网络的中间表示。对于视频，我们提出了一种新的聚类方法，使用Sinkhorn-Knopp算法将深度视频表示映射到人类可解释的语义伪标签。本论文的研究成果为进一步提高深度视频表示学习的可扩展性和可解释性做出了贡献。

https://ora.ox.ac.uk/objects/uuid:3a0721a0-025e-423c-b441-2d7af5d960da

成为VIP会员查看完整内容

84

相关内容

牛津大学 (University of Oxford)

牛津大学 (University of Oxford)

牛津大学是一所英国研究型大学，也是罗素大学集团、英国“G5超级精英大学”，欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人，包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月，泰晤士高等教育发布了2016-2017年度世界大学排名，其中牛津大学排名第一。

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

专知会员服务

35+阅读 · 2022年12月14日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知会员服务

52+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知会员服务

62+阅读 · 2022年9月13日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

53+阅读 · 2022年8月31日

耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知会员服务

54+阅读 · 2022年4月28日

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

专知会员服务

44+阅读 · 2020年12月27日

【牛津大学博士论文】解释深度神经网络，134页pdf

【牛津大学博士论文】解释深度神经网络，134页pdf

专知会员服务

221+阅读 · 2020年10月8日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

专知

6+阅读 · 2022年10月13日

【牛津大学博士论文】自监督学习视频理解，143页pdf

【牛津大学博士论文】自监督学习视频理解，143页pdf

专知

1+阅读 · 2022年10月11日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知

6+阅读 · 2022年10月8日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知

2+阅读 · 2022年9月6日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知

2+阅读 · 2022年9月3日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知

8+阅读 · 2022年8月31日

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知

11+阅读 · 2022年4月29日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

深度属性特征学习及其应用研究

国家自然科学基金

6+阅读 · 2014年12月31日

多深度融合感知的多视点视频联合处理与高效编码

国家自然科学基金

1+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

基于深度学习框架的多媒体大数据表示学习

国家自然科学基金

6+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

基于上下文信息的社交网络图像分析与理解

国家自然科学基金

0+阅读 · 2013年12月31日

基于感知的深度视频信号处理与编码研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于半监督结构化学习的跨语言映射研究

国家自然科学基金

2+阅读 · 2011年12月31日

BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric

Arxiv

0+阅读 · 2022年12月16日

Learning Stance Embeddings from Signed Social Graphs

Arxiv

3+阅读 · 2022年12月15日

A Deep Learning Synthetic Likelihood Approximation of a Non-stationary Spatial Model for Extreme Streamflow Forecasting

Arxiv

0+阅读 · 2022年12月14日

Transformers in Medical Image Analysis: A Review

Transformers in Medical Image Analysis: A Review

Arxiv

40+阅读 · 2022年2月24日

已删除

Arxiv

32+阅读 · 2020年3月23日

Learning Conceptual-Contextual Embeddings for Medical Text

Arxiv

14+阅读 · 2020年3月12日

Learning Conceptual-Contexual Embeddings for Medical Text

Arxiv

27+阅读 · 2019年8月16日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

Embedding Uncertain Knowledge Graphs

Arxiv

12+阅读 · 2019年2月26日

Compositional GAN: Learning Conditional Image Composition

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

VIP会员

相关主题

牛津大学 (University of Oxford)

多模态数据

相关VIP内容

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

专知会员服务

35+阅读 · 2022年12月14日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知会员服务

52+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知会员服务

62+阅读 · 2022年9月13日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

53+阅读 · 2022年8月31日

耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知会员服务

54+阅读 · 2022年4月28日

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

专知会员服务

44+阅读 · 2020年12月27日

【牛津大学博士论文】解释深度神经网络，134页pdf

【牛津大学博士论文】解释深度神经网络，134页pdf

专知会员服务

221+阅读 · 2020年10月8日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

专知

6+阅读 · 2022年10月13日

【牛津大学博士论文】自监督学习视频理解，143页pdf

【牛津大学博士论文】自监督学习视频理解，143页pdf

专知

1+阅读 · 2022年10月11日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知

6+阅读 · 2022年10月8日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知

2+阅读 · 2022年9月6日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知

2+阅读 · 2022年9月3日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知

8+阅读 · 2022年8月31日

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知

11+阅读 · 2022年4月29日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

相关基金

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

深度属性特征学习及其应用研究

国家自然科学基金

6+阅读 · 2014年12月31日

多深度融合感知的多视点视频联合处理与高效编码

国家自然科学基金

1+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

基于深度学习框架的多媒体大数据表示学习

国家自然科学基金

6+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

基于上下文信息的社交网络图像分析与理解

国家自然科学基金

0+阅读 · 2013年12月31日

基于感知的深度视频信号处理与编码研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于半监督结构化学习的跨语言映射研究

国家自然科学基金

2+阅读 · 2011年12月31日

相关论文

BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric

Arxiv

0+阅读 · 2022年12月16日

Learning Stance Embeddings from Signed Social Graphs

Arxiv

3+阅读 · 2022年12月15日

A Deep Learning Synthetic Likelihood Approximation of a Non-stationary Spatial Model for Extreme Streamflow Forecasting

Arxiv

0+阅读 · 2022年12月14日

Transformers in Medical Image Analysis: A Review

Transformers in Medical Image Analysis: A Review

Arxiv

40+阅读 · 2022年2月24日

已删除

Arxiv

32+阅读 · 2020年3月23日

Learning Conceptual-Contextual Embeddings for Medical Text

Arxiv

14+阅读 · 2020年3月12日

Learning Conceptual-Contexual Embeddings for Medical Text

Arxiv

27+阅读 · 2019年8月16日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

Embedding Uncertain Knowledge Graphs

Arxiv

12+阅读 · 2019年2月26日

Compositional GAN: Learning Conditional Image Composition

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

微信扫码咨询专知VIP会员