【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习 - 专知VIP

会员服务 ·

2

自监督学习 · ACM Multimedia 2020 · 表示学习 ·

2020 年 8 月 14 日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在观看视频时，视觉事件的发生往往伴随着声音事件，如唇动的声音，乐器演奏的音乐。视听事件之间存在着一种潜在的相关性，通过解决视听同步的代理任务，可以将其作为自监督信息来训练神经网络。在本文中，我们提出了一种新的带有共同注意力机制的自监督框架来学习无标记视频中的通用跨模态表示，并进一步使下游任务受益。具体而言，我们探讨了三个不同的共注意模块，以关注与声音相关的区分视觉区域，并介绍它们之间的相互作用。实验表明，与现有方法相比，我们的模型在参数较少的情况下，取得了较好的效果。为了进一步评估我们方法的可推广性和可迁移性，我们将预训练的模型应用于两个下游任务，即声源定位和动作识别。大量的实验表明，我们的模型可以提供与其他自监督方法竞争的结果，也表明我们的方法可以处理具有挑战性的场景包含多个声源。

https://arxiv.org/abs/2008.05789

成为VIP会员查看完整内容

28

相关内容

自监督学习

自监督学习

自监督学习（self-supervised learning）可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

CIKM 2020 | 序列推荐预训练：基于互信息最大化的自监督学习

专知会员服务

46+阅读 · 2020年9月17日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

【CVPR2020】多模态社会媒体中危机事件分类

【CVPR2020】多模态社会媒体中危机事件分类

专知会员服务

55+阅读 · 2020年4月18日

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

专知会员服务

43+阅读 · 2020年4月1日

AAAI 2020 | 樊峻菘：弱监督语义分割（视频解读）

AAAI 2020 | 樊峻菘：弱监督语义分割（视频解读）

AI科技评论

11+阅读 · 2020年1月29日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

7篇必读ACM MM 2019论文：图神经网络+多媒体

7篇必读ACM MM 2019论文：图神经网络+多媒体

新智元

43+阅读 · 2019年11月9日

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

专知

42+阅读 · 2019年11月5日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

开放知识图谱

12+阅读 · 2019年5月26日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

【泡泡一分钟】针对无监督行人重识别问题的跨视图非对称度量学习（ICCV2017-104）

【泡泡一分钟】针对无监督行人重识别问题的跨视图非对称度量学习（ICCV2017-104）

泡泡机器人SLAM

6+阅读 · 2018年9月27日

多媒体大数据分析研究进展综述导读

多媒体大数据分析研究进展综述导读

专知

8+阅读 · 2018年3月19日

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

中国科学院自动化研究所

4+阅读 · 2018年1月25日

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Arxiv

7+阅读 · 2020年3月19日

Dual Temporal Memory Network for Efficient Video Object Segmentation

Dual Temporal Memory Network for Efficient Video Object Segmentation

Arxiv

5+阅读 · 2020年3月13日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

Progressive Pose Attention Transfer for Person Image Generation

Progressive Pose Attention Transfer for Person Image Generation

Arxiv

5+阅读 · 2019年4月9日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Deep Feature Aggregation with Heat Diffusion for Image Retrieval

Arxiv

7+阅读 · 2018年6月2日

Attention-Aware Compositional Network for Person Re-identification

Arxiv

8+阅读 · 2018年5月16日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

VIP会员

相关主题

自监督学习

ACM Multimedia 2020

相关VIP内容

CIKM 2020 | 序列推荐预训练：基于互信息最大化的自监督学习

专知会员服务

46+阅读 · 2020年9月17日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

【CVPR2020】多模态社会媒体中危机事件分类

【CVPR2020】多模态社会媒体中危机事件分类

专知会员服务

55+阅读 · 2020年4月18日

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

专知会员服务

43+阅读 · 2020年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】面向可扩展深度神经网络的预测编码：理论与实践

如何快速获取数百万架无人机？

EMNLP 2025 | RTQA：递归思想求解复杂的时间知识图谱问答

组合式零样本学习综述

相关资讯

AAAI 2020 | 樊峻菘：弱监督语义分割（视频解读）

AAAI 2020 | 樊峻菘：弱监督语义分割（视频解读）

AI科技评论

11+阅读 · 2020年1月29日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

7篇必读ACM MM 2019论文：图神经网络+多媒体

7篇必读ACM MM 2019论文：图神经网络+多媒体

新智元

43+阅读 · 2019年11月9日

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

专知

42+阅读 · 2019年11月5日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

开放知识图谱

12+阅读 · 2019年5月26日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

【泡泡一分钟】针对无监督行人重识别问题的跨视图非对称度量学习（ICCV2017-104）

【泡泡一分钟】针对无监督行人重识别问题的跨视图非对称度量学习（ICCV2017-104）

泡泡机器人SLAM

6+阅读 · 2018年9月27日

多媒体大数据分析研究进展综述导读

多媒体大数据分析研究进展综述导读

专知

8+阅读 · 2018年3月19日

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

中国科学院自动化研究所

4+阅读 · 2018年1月25日

相关论文

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Arxiv

7+阅读 · 2020年3月19日

Dual Temporal Memory Network for Efficient Video Object Segmentation

Dual Temporal Memory Network for Efficient Video Object Segmentation

Arxiv

5+阅读 · 2020年3月13日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

Progressive Pose Attention Transfer for Person Image Generation

Progressive Pose Attention Transfer for Person Image Generation

Arxiv

5+阅读 · 2019年4月9日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Deep Feature Aggregation with Heat Diffusion for Image Retrieval

Arxiv

7+阅读 · 2018年6月2日

Attention-Aware Compositional Network for Person Re-identification

Arxiv

8+阅读 · 2018年5月16日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

微信扫码咨询专知VIP会员