本文处理学习和推理语言和视觉数据的相关下游任务的挑战,如视觉问题回答(VQA)和自然语言的视觉推理(NLVR)。我们设计了一个新颖的跨模态关联模块,用端到端框架在目标任务的监督下学习各种输入模态组件之间的关联表示,这比仅仅重塑原始表示空间更易于推广到未观测的数据。除了对文本实体和视觉实体之间的相关性进行建模外,我们还对文本中的实体关系和图像中的对象关系之间的高阶相关性进行建模。我们提出的方法使用公共基准,在两个不同的语言和视觉任务上显示出具有竞争力的性能,并改进了最新发布的结果。NLVR任务学习的输入空间对齐及其相关表示提高了VQA任务的训练效率。

成为VIP会员查看完整内容
55

相关内容

【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
34+阅读 · 2020年5月1日
CVPR 2020 | 深度视觉推理2.0:组合式目标指代理解
AI科技评论
15+阅读 · 2020年3月20日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
微软机器阅读理解在一场多轮对话挑战中媲美人类
微软丹棱街5号
19+阅读 · 2019年5月14日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关主题
微信扫码咨询专知VIP会员