【牛津大学博士论文】多模态自监督学习,172页pdf

2022 年 10 月 4 日 专知


深度学习推动了应用的爆炸式增长,然而训练深度神经网络通常需要昂贵的人工注释。在这篇论文中,我们探索了在训练深度神经网络时避免大量依赖人工注释示例的替代方案。具体来说,要么采用自监督方法来自动纠正自由获得的数据标签,要么完全放弃使用人工标签,而是利用音频和视觉信息的自然共生来学习视频中的对象表示。越来越多的数字数据通常会提供噪声标签,这些标签可以用来监督学习过程。传统的数据预处理包括在训练识别模型之前纠正/清理数据,但这可能需要大量的人工工作。我们考虑自动更正注释噪声,从而避免了昂贵的手动注释的需要。我们构建和扩展了最近的突破,使用一致性损失(consistency loss)和空间记忆映射(space memory map)来提供灵活的实例级注册,从而实现更大的泛化。进一步探索了多模态感觉流,利用模态冗余,即模态之间的重叠信息,为模型提供自监督。表示是通过利用不同的模式来学习的,而不使用任何人类注释的标签。我们将使用三个不同的应用程序演示此技术

首先,我们自动管理一个大型音频数据集VGG-Sound,使用视觉引导收集了超过200k的视频,并在此基础上进行训练,生成最先进的音频识别模型。其次,我们提出了一种改进和扩展最近声源定位技术的方法,通过引入一种机制来挖掘硬样本并自动将其添加到对比学习公式中。最后,与在一个特定领域执行的现有视听同步任务不同,我们建议通过探索使用几种基于transformer的体系结构来解决开放世界设置中的同步问题。通过这些模型,我们在具有挑战性的语音数据集中获得了最先进的结果,并在一般声音数据集中显示了出色的泛化效果。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“M172” 就可以获取【牛津大学博士论文】多模态自监督学习,172页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
8

相关内容

【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
77+阅读 · 2022年10月19日
【牛津大学博士论文】自监督学习视频理解,143页pdf
专知会员服务
37+阅读 · 2022年10月11日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
55+阅读 · 2022年9月7日
专知会员服务
65+阅读 · 2021年10月15日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月22日
Arxiv
0+阅读 · 2022年11月20日
Arxiv
14+阅读 · 2022年5月6日
已删除
Arxiv
31+阅读 · 2020年3月23日
VIP会员
相关基金
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年11月22日
Arxiv
0+阅读 · 2022年11月20日
Arxiv
14+阅读 · 2022年5月6日
已删除
Arxiv
31+阅读 · 2020年3月23日
Top
微信扫码咨询专知VIP会员