We consider the problem of Visual Question Answering (VQA). Given an image and a free-form, open-ended, question, expressed in natural language, the goal of VQA system is to provide accurate answer to this question with respect to the image. The task is challenging because it requires simultaneous and intricate understanding of both visual and textual information. Attention, which captures intra- and inter-modal dependencies, has emerged as perhaps the most widely used mechanism for addressing these challenges. In this paper, we propose an improved attention-based architecture to solve VQA. We incorporate an Attention on Attention (AoA) module within encoder-decoder framework, which is able to determine the relation between attention results and queries. Attention module generates weighted average for each query. On the other hand, AoA module first generates an information vector and an attention gate using attention results and current context; and then adds another attention to generate final attended information by multiplying the two. We also propose multimodal fusion module to combine both visual and textual information. The goal of this fusion module is to dynamically decide how much information should be considered from each modality. Extensive experiments on VQA-v2 benchmark dataset show that our method achieves the state-of-the-art performance.


翻译:我们考虑了视觉问题解答(VQA)的问题。鉴于图像和以自然语言表达的免费形式、开放的、开放的、问题,VQA系统的目标是就图像问题提供准确的答案。任务具有挑战性,因为它要求对视觉和文字信息需要同时和复杂的理解。关注,它捕捉了不同模式内部和不同模式之间的依赖性。关注或许是用来应对这些挑战的最广泛使用的机制。在本文件中,我们建议改进解决VQA的基于关注的架构。我们把关注(AoA)模块纳入编码器解密框架,从而能够确定关注结果和查询之间的关系。关注模块为每个查询生成加权平均值。另一方面,AoA模块首先利用关注结果和当前背景生成信息矢量和关注门;然后增加另一个关注点,通过将两种模式乘以生成最终的共享信息。我们还提出了将视觉和文本信息结合起来的多式联运模块。这个聚合模块的目标是动态地决定如何从每个模式上实现我们的基准数据。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
123+阅读 · 2020年9月8日
专知会员服务
61+阅读 · 2020年3月4日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
22+阅读 · 2019年10月18日
注意力机制介绍,Attention Mechanism
专知会员服务
164+阅读 · 2019年10月13日
[综述]深度学习下的场景文本检测与识别
专知会员服务
76+阅读 · 2019年10月10日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
Top
微信扫码咨询专知VIP会员