Large-scale vision and language representation learning has shown promising improvements on various vision-language tasks. Most existing methods employ a transformer-based multimodal encoder to jointly model visual tokens (region-based image features) and word tokens. Because the visual tokens and word tokens are unaligned, it is challenging for the multimodal encoder to learn image-text interactions. In this paper, we introduce a contrastive loss to ALign the image and text representations BEfore Fusing (ALBEF) them through cross-modal attention, which enables more grounded vision and language representation learning. Unlike most existing methods, our method does not require bounding box annotations nor high-resolution images. In order to improve learning from noisy web data, we propose momentum distillation, a self-training method which learns from pseudo-targets produced by a momentum model. We provide a theoretical analysis of ALBEF from a mutual information maximization perspective, showing that different training tasks can be interpreted as different ways to generate views for an image-text pair. ALBEF achieves state-of-the-art performance on multiple downstream vision-language tasks. On image-text retrieval, ALBEF outperforms methods that are pre-trained on orders of magnitude larger datasets. On VQA and NLVR$^2$, ALBEF achieves absolute improvements of 2.37% and 3.84% compared to the state-of-the-art, while enjoying faster inference speed. Code and pre-trained models are available at https://github.com/salesforce/ALBEF/.


翻译:大型视觉和语言代表学习在各种视觉语言任务上显示出了有希望的改善。 多数现有方法都使用基于变压器的多式联运编码器来联合模拟视觉标志( 区域图像特征) 和文字符号。 由于视觉标志和文字符号不对齐, 多式联运编码器学习图像文本互动是一个挑战。 在本文中, 我们从相互信息最大化的角度对图像和文字表达方式进行理论分析, 显示不同的培训任务可以被解释为为图像- 文本配对生成观点的不同方式, 从而可以更有根地进行视觉和语言代表学习。 与大多数现有方法不同, 我们的方法不需要捆绑框说明或高分辨率图像。 为了改进对杂乱的网络数据进行学习, 我们建议了动力蒸馏, 这是一种自我培训的方法, 学习了通过一种动力模型产生的假目标。 我们从相互信息最大化的角度对 ALBEF 进行理论分析, 显示不同的培训任务可以被解释为为图像- 文本配对的不同方式。 ALBEF 与多数现有框说明或高清晰度的图像- 格式任务相比, 。 在多个下游的图像- $_ 格式任务中, 我们建议- 正在检索的ALBR_ 方法 和ALEF2 中, 在图像- greal- greal- dreal- dreal- sal- dreal- lax- lax- lax- sal- lad- dreal- dreal- lax- sal- sal- sal- lad- lad- lad- lad- lad- lad- sal- lad- lad- sal- lad- lad- lad- lad- sre- lad- lad- sal- sal- sal- sal- sal- lad- sal- sal- sal- sal- sal- lad- sal- sal- sal- lad- sal- sal- sal- sal- sal- lad- lad- lad- sal- sal- sal- lad- lad- lad- lad-

3
下载
关闭预览

相关内容

语言表示一直是人工智能、计算语言学领域的研究热点。从早期的离散表示到最近的分散式表示,语言表示的主要研究内容包括如何针对不同的语言单位,设计表示语言的数据结构以及和语言的转换机制,即如何将语言转换成计算机内部的数据结构(理解)以及由计算机内部表示转换成语言(生成)。
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
27+阅读 · 2021年11月11日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
3+阅读 · 2018年11月14日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员