本文研究了卷积神经网络(CNN)和视觉语言预训练Transformer(VLPT)的联合学习,旨在从数百万个图像-文本对中学习跨模态对齐。当前大多数文章都是先抽取出图像中的显著性区域,再将其与文字一一对齐。由于基于区域的视觉特征通常代表图像的一部分,因此现有的视觉语言模型要充分理解配对自然语言的语义是一项挑战。由于基于区域的视觉特征通常代表图像的一部分,现有的视觉语言模型很难完全理解成对自然语言的语义。本文提出SOHO“开箱即看”的概念,将完整的图像为输入,以一种端到端的方式学习视觉语言表达。SOHO不需要边界框标注,这使得推理速度比基于区域的方法快10倍。特别地,SOHO学会了通过视觉词典(VD)来提取全面而紧凑的图像特征,这有助于跨模态理解。大量的实验结果也验证了本文SOHO的有效性。

https://www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

成为VIP会员查看完整内容
30

相关内容

专知会员服务
34+阅读 · 2021年6月1日
专知会员服务
28+阅读 · 2021年5月16日
专知会员服务
22+阅读 · 2021年5月1日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
29+阅读 · 2021年4月16日
专知会员服务
47+阅读 · 2021年3月12日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
22+阅读 · 2021年3月4日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
47+阅读 · 2021年3月3日
AAAI2021 | 学习预训练图神经网络
专知会员服务
99+阅读 · 2021年1月28日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
22+阅读 · 2020年7月23日
【ICML2020】对比多视角表示学习
专知
16+阅读 · 2020年6月28日
ICML2020 图神经网络的预训练
图与推荐
9+阅读 · 2020年4月4日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
14+阅读 · 2019年5月1日
BERT-预训练的强大
微信AI
53+阅读 · 2019年3月7日
通过预训练提升语言理解
开放知识图谱
4+阅读 · 2018年11月21日
Arxiv
0+阅读 · 2021年6月2日
Arxiv
15+阅读 · 2021年4月8日
Arxiv
4+阅读 · 2018年10月31日
VIP会员
相关VIP内容
专知会员服务
34+阅读 · 2021年6月1日
专知会员服务
28+阅读 · 2021年5月16日
专知会员服务
22+阅读 · 2021年5月1日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
29+阅读 · 2021年4月16日
专知会员服务
47+阅读 · 2021年3月12日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
22+阅读 · 2021年3月4日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
47+阅读 · 2021年3月3日
AAAI2021 | 学习预训练图神经网络
专知会员服务
99+阅读 · 2021年1月28日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
22+阅读 · 2020年7月23日
相关资讯
【ICML2020】对比多视角表示学习
专知
16+阅读 · 2020年6月28日
ICML2020 图神经网络的预训练
图与推荐
9+阅读 · 2020年4月4日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
14+阅读 · 2019年5月1日
BERT-预训练的强大
微信AI
53+阅读 · 2019年3月7日
通过预训练提升语言理解
开放知识图谱
4+阅读 · 2018年11月21日
微信扫码咨询专知VIP会员