【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

2020 年 8 月 14 日 专知


在观看视频时,视觉事件的发生往往伴随着声音事件,如唇动的声音,乐器演奏的音乐。视听事件之间存在着一种潜在的相关性,通过解决视听同步的代理任务,可以将其作为自监督信息来训练神经网络。在本文中,我们提出了一种新的带有共同注意力机制的自监督框架来学习无标记视频中的通用跨模态表示,并进一步使下游任务受益。具体而言,我们探讨了三个不同的共注意模块,以关注与声音相关的区分视觉区域,并介绍它们之间的相互作用。实验表明,与现有方法相比,我们的模型在参数较少的情况下,取得了较好的效果。为了进一步评估我们方法的可推广性和可迁移性,我们将预训练的模型应用于两个下游任务,即声源定位和动作识别。大量的实验表明,我们的模型可以提供与其他自监督方法竞争的结果,也表明我们的方法可以处理具有挑战性的场景包含多个声源。

https://arxiv.org/abs/2008.05789


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“SAVRL” 可以获取《【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习》专知下载链接索引

专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料
登录查看更多
0

相关内容

ACM 国际多媒体大会(英文名称:ACM Multimedia,简称:ACM MM)是多媒体领域的顶级国际会议,每年举办一次。
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
【ACM Multimedia 2020】双时间存储网络有效的视频对象分割
【ACMMM2020-北航】协作双路径度量的小样本学习
专知会员服务
28+阅读 · 2020年8月11日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
59+阅读 · 2020年5月25日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【KDD2020】图神经网络生成式预训练
专知
20+阅读 · 2020年7月3日
Arxiv
0+阅读 · 2020年10月14日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
9+阅读 · 2018年2月4日
VIP会员
Top
微信扫码咨询专知VIP会员