【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video - 专知VIP

会员服务 ·

1

无监督学习 · 语义校准 · 视觉基准 · 视觉语言翻译 · CVPR 2020 ·

2020 年 3 月 13 日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

地球上有成千上万种活跃的语言，但只有一个单一的视觉世界。根植于这个视觉世界，有可能弥合所有这些语言之间的鸿沟。我们的目标是使用视觉基准来改进语言之间的非监督词映射。其核心思想是通过学习母语教学视频中未配对的嵌入语，在两种语言之间建立一种共同的视觉表达。考虑到这种共享嵌入，我们证明(i)我们可以在语言之间映射单词，特别是“可视化”单词;(ii)共享嵌入为现有的基于文本的无监督单词翻译技术提供了良好的初始化，为我们提出的混合可视文本映射算法MUVE奠定了基础;(iii)我们的方法通过解决基于文本的方法的缺点来获得更好的性能——它更健壮，处理通用性更低的数据集，并且适用于低资源的语言。我们将这些方法应用于将英语单词翻译成法语、韩语和日语——所有这些都不需要任何平行语料库，而只是通过观看许多人边做边说的视频。

成为VIP会员查看完整内容

12

相关内容

无监督学习

无监督学习

现实生活中常常会有这样的问题：缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

51+阅读 · 2020年5月26日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

108+阅读 · 2020年2月19日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

26+阅读 · 2019年4月13日

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

全球人工智能

4+阅读 · 2018年6月25日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

开放知识图谱

36+阅读 · 2018年3月30日

用于神经网络机器翻译的全并行文本生成

用于神经网络机器翻译的全并行文本生成

专知

5+阅读 · 2018年1月3日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

用于神经机器翻译的全并行文本生成

用于神经机器翻译的全并行文本生成

全球人工智能

7+阅读 · 2017年11月13日

FPS游戏AI竞赛ViZDoom 2017结果公布：CMU和清华团队分别获冠亚军

FPS游戏AI竞赛ViZDoom 2017结果公布：CMU和清华团队分别获冠亚军

机器之心

3+阅读 · 2017年8月27日

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

机器之心

9+阅读 · 2017年8月14日

Visual Grounding in Video for Unsupervised Word Translation

Visual Grounding in Video for Unsupervised Word Translation

Arxiv

7+阅读 · 2020年3月11日

Exploring the Semantics for Visual Relationship Detection

Arxiv

3+阅读 · 2019年4月3日

Zero-Shot Object Detection

Zero-Shot Object Detection

Arxiv

9+阅读 · 2018年7月27日

Relation Networks for Object Detection

Arxiv

4+阅读 · 2018年6月14日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Fine-grained Video Classification and Captioning

Arxiv

7+阅读 · 2018年4月24日

Virtual-to-Real: Learning to Control in Visual Semantic Segmentation

Arxiv

4+阅读 · 2018年3月18日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

Multiple Object Detection, Tracking and Long-Term Dynamics Learning in Large 3D Maps

Arxiv

6+阅读 · 2018年1月28日

Large-Scale Object Discovery and Detector Adaptation from Unlabeled Video

Arxiv

3+阅读 · 2017年12月23日

VIP会员

相关主题

无监督学习

视觉语言翻译

相关VIP内容

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

51+阅读 · 2020年5月26日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

108+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《英国2025国防态势：一体化防空反导体系》最新报告

《核指挥、控制和通信（NC3）架构中的机器学习系统：机遇、局限和对战略指挥官的建议》报告

中文版 | 以色列多层反导体系解析

《以色列“雄狮崛起”行动详情报告：行动背景、交战模式、目标地点、消除目标、防空系统、各方反应》

相关资讯

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

26+阅读 · 2019年4月13日

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

全球人工智能

4+阅读 · 2018年6月25日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

开放知识图谱

36+阅读 · 2018年3月30日

用于神经网络机器翻译的全并行文本生成

用于神经网络机器翻译的全并行文本生成

专知

5+阅读 · 2018年1月3日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

用于神经机器翻译的全并行文本生成

用于神经机器翻译的全并行文本生成

全球人工智能

7+阅读 · 2017年11月13日

FPS游戏AI竞赛ViZDoom 2017结果公布：CMU和清华团队分别获冠亚军

FPS游戏AI竞赛ViZDoom 2017结果公布：CMU和清华团队分别获冠亚军

机器之心

3+阅读 · 2017年8月27日

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

机器之心

9+阅读 · 2017年8月14日

相关论文

Visual Grounding in Video for Unsupervised Word Translation

Visual Grounding in Video for Unsupervised Word Translation

Arxiv

7+阅读 · 2020年3月11日

Exploring the Semantics for Visual Relationship Detection

Arxiv

3+阅读 · 2019年4月3日

Zero-Shot Object Detection

Zero-Shot Object Detection

Arxiv

9+阅读 · 2018年7月27日

Relation Networks for Object Detection

Arxiv

4+阅读 · 2018年6月14日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Fine-grained Video Classification and Captioning

Arxiv

7+阅读 · 2018年4月24日

Virtual-to-Real: Learning to Control in Visual Semantic Segmentation

Arxiv

4+阅读 · 2018年3月18日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

Multiple Object Detection, Tracking and Long-Term Dynamics Learning in Large 3D Maps

Arxiv

6+阅读 · 2018年1月28日

Large-Scale Object Discovery and Detector Adaptation from Unlabeled Video

Arxiv

3+阅读 · 2017年12月23日

微信扫码咨询专知VIP会员