【牛津大学博士论文】多模态自监督学习，172页pdf - 专知

会员服务 ·

0

【牛津大学博士论文】多模态自监督学习，172页pdf

2022 年 10 月 4 日 专知

深度学习推动了应用的爆炸式增长，然而训练深度神经网络通常需要昂贵的人工注释。在这篇论文中，我们探索了在训练深度神经网络时避免大量依赖人工注释示例的替代方案。具体来说，要么采用自监督方法来自动纠正自由获得的数据标签，要么完全放弃使用人工标签，而是利用音频和视觉信息的自然共生来学习视频中的对象表示。越来越多的数字数据通常会提供噪声标签，这些标签可以用来监督学习过程。传统的数据预处理包括在训练识别模型之前纠正/清理数据，但这可能需要大量的人工工作。我们考虑自动更正注释噪声，从而避免了昂贵的手动注释的需要。我们构建和扩展了最近的突破，使用一致性损失(consistency loss)和空间记忆映射(space memory map)来提供灵活的实例级注册，从而实现更大的泛化。进一步探索了多模态感觉流，利用模态冗余，即模态之间的重叠信息，为模型提供自监督。表示是通过利用不同的模式来学习的，而不使用任何人类注释的标签。我们将使用三个不同的应用程序演示此技术。

首先，我们自动管理一个大型音频数据集VGG-Sound，使用视觉引导收集了超过200k的视频，并在此基础上进行训练，生成最先进的音频识别模型。其次，我们提出了一种改进和扩展最近声源定位技术的方法，通过引入一种机制来挖掘硬样本并自动将其添加到对比学习公式中。最后，与在一个特定领域执行的现有视听同步任务不同，我们建议通过探索使用几种基于transformer的体系结构来解决开放世界设置中的同步问题。通过这些模型，我们在具有挑战性的语音数据集中获得了最先进的结果，并在一般声音数据集中显示了出色的泛化效果。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“M172” 就可以获取《【牛津大学博士论文】多模态自监督学习，172页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

9

相关内容

注释（编程）

注释（编程）

注释（编程）

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知会员服务

84+阅读 · 2022年10月30日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

82+阅读 · 2022年10月19日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

86+阅读 · 2022年10月16日

【牛津大学博士论文】自监督学习视频理解，143页pdf

【牛津大学博士论文】自监督学习视频理解，143页pdf

专知会员服务

40+阅读 · 2022年10月11日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知会员服务

45+阅读 · 2022年9月29日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

58+阅读 · 2022年9月7日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知会员服务

33+阅读 · 2022年8月10日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

67+阅读 · 2021年10月15日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

67+阅读 · 2020年11月9日

【斯坦福大学博士论文】深度学习医学图像解译，205页pdf

【斯坦福大学博士论文】深度学习医学图像解译，205页pdf

专知

4+阅读 · 2022年11月18日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知

1+阅读 · 2022年9月29日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知

3+阅读 · 2022年8月17日

复杂环境下机器学习的理论研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

高维多媒体特征的低维流形子空间降维及聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于稀疏编码模型的深层学习神经网络

国家自然科学基金

7+阅读 · 2012年12月31日

部分监督学习问题的支持向量机及其应用

国家自然科学基金

3+阅读 · 2012年12月31日

基于约束的高维数据聚类

国家自然科学基金

2+阅读 · 2012年12月31日

基于波色量子场论的高维数据非监督学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

机器学习核方法模型选择与组合的核矩阵近似分析方法

国家自然科学基金

0+阅读 · 2011年12月31日

基因工程抗体用于农药残留检测的研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于RDF的软件工程数据存储与检索技术研究

国家自然科学基金

1+阅读 · 2008年12月31日

Best-$k$ Search Algorithm for Neural Text Generation

Arxiv

0+阅读 · 2022年11月22日

Neural Embeddings for Text

Arxiv

0+阅读 · 2022年11月20日

Learning an Artificial Language for Knowledge-Sharing in Multilingual Translation

Arxiv

0+阅读 · 2022年11月18日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Balanced Multimodal Learning via On-the-fly Gradient Modulation

Arxiv

13+阅读 · 2022年3月29日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

已删除

Arxiv

32+阅读 · 2020年3月23日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

Crossing Generative Adversarial Networks for Cross-View Person Re-identification

Arxiv

10+阅读 · 2018年1月4日

VIP会员

相关主题

注释（编程）

牛津大学 (University of Oxford)

相关VIP内容

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知会员服务

84+阅读 · 2022年10月30日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

82+阅读 · 2022年10月19日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

86+阅读 · 2022年10月16日

【牛津大学博士论文】自监督学习视频理解，143页pdf

【牛津大学博士论文】自监督学习视频理解，143页pdf

专知会员服务

40+阅读 · 2022年10月11日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知会员服务

45+阅读 · 2022年9月29日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

58+阅读 · 2022年9月7日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知会员服务

33+阅读 · 2022年8月10日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

67+阅读 · 2021年10月15日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

67+阅读 · 2020年11月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

生成模型中持续学习的综合综述

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

【新书】《LangChain生成式AI实战：使用 Python 与 LangGraph 构建大语言模型应用与高级智能体》

相关资讯

【斯坦福大学博士论文】深度学习医学图像解译，205页pdf

【斯坦福大学博士论文】深度学习医学图像解译，205页pdf

专知

4+阅读 · 2022年11月18日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知

1+阅读 · 2022年9月29日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知

3+阅读 · 2022年8月17日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

高维多媒体特征的低维流形子空间降维及聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于稀疏编码模型的深层学习神经网络

国家自然科学基金

7+阅读 · 2012年12月31日

部分监督学习问题的支持向量机及其应用

国家自然科学基金

3+阅读 · 2012年12月31日

基于约束的高维数据聚类

国家自然科学基金

2+阅读 · 2012年12月31日

基于波色量子场论的高维数据非监督学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

机器学习核方法模型选择与组合的核矩阵近似分析方法

国家自然科学基金

0+阅读 · 2011年12月31日

基因工程抗体用于农药残留检测的研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于RDF的软件工程数据存储与检索技术研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Best-$k$ Search Algorithm for Neural Text Generation

Arxiv

0+阅读 · 2022年11月22日

Neural Embeddings for Text

Arxiv

0+阅读 · 2022年11月20日

Learning an Artificial Language for Knowledge-Sharing in Multilingual Translation

Arxiv

0+阅读 · 2022年11月18日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Balanced Multimodal Learning via On-the-fly Gradient Modulation

Arxiv

13+阅读 · 2022年3月29日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

已删除

Arxiv

32+阅读 · 2020年3月23日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

Crossing Generative Adversarial Networks for Cross-View Person Re-identification

Arxiv

10+阅读 · 2018年1月4日

大家都在搜

大型语言模型

CMU博士论文

软件无线电

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员