论文浅尝 | 利用推理链进行视觉问题回答

2019 年 4 月 22 日 开放知识图谱


论文笔记整理:吴杨,浙江大学计算机学院,知识图谱、NLP方向。



http://papers.nips.cc/paper/7311-chain-of-reasoning-for-visual-question-answering.pdf


动机

   在视觉问题回答中,较为复杂的问题经常需要多步骤的推理才能够回答,比如说“What isplaced next to the bus on the right of the picture?”这样的问题,我们需要先根据(bus, on theright of, picture)这组关系找到bus on the right这个复合物体,然后继续去寻找next to [buson the right]这个物体最终来解决这个问题。而本文则提出了一个VQA的推理链(Chain of Reasoning, CoR),能够充分利用图片和问句的信息对复杂问题中的关系和复合物体的寻找,并取得了非常好的效果。本文的主要贡献在于:

  1. 提出了 VQA 推理链方法,能够动态的产生新的关系和复合物体以对问题进行推理

  2. 4 中主要的数据集上都产生了state-of-art的效果。

  3. CoR的中间过程产生的复合物体进行了可视化


方法

(1) 概述

VQA 的一种通用解法是将图片和问题映射到同一个向量空间后使用element-wise 乘法或者 MLP 等等转化成分类问题。本文的过程也是这样。图片经过RCNN转化为m个初始物体的向量表示之后,我们将这些物体两两组合起来,就可以获得m*m个关系的向量表示,然后利用问题的embedding从这m*m个关系向量中,产生出新一轮的m个复合物体,这样一直循环下去最终得到问题的答案表示的那个复合物体。也就是说,本文和常规的想办法将问题解构成简单问题的思路不同,反而是将已有的可能是答案的物体进行组合,再用问题去挑选和进一步组合这些物体。

(2) Data Embedding 部分:

  将问题通过GRU转化成为维度的向量。将图片通过RCNN转化为维度的向量,其中V中保存着m个初始物体的向量表示

(3) CoR 部分:

  第一步:产生Attention和本轮输出: 

  将图片转成的向量V作为第一轮CoR的复合物体(橘黄色部分),将其向量映射到Ds维度,将问题向量映射到Dp维度,然后分别采用2个变换矩阵将他们映射到同一维度Df,并使用element-wise乘法乘起来产生mDf的向量(紫红色部分),上述过程重复K次,(Mutan方法)对得到的紫红色向量加到一起,经过MLP最终产生m维的attention(黑白灰3维部分)。总的来说,本步骤的目的是计算问题对复合物体的Attention。并准备产生m*m个关系embedding。最后,用这个Attention对复合物体进行操作就可以产生本轮的输出了。其中各部分的公式表示如下:

 其中,PtSt表示初步把问题和复合物体转化到的embeddingFt表示将他们映射到同一维度并进行element-wise产生紫红色节点的部分。At表示获得的AttentionOt表示本轮的输出。

   第二步:产生m*m个关系的embedding

   这一步中,我们首先将问题转化成为两个向量(黑白灰很长的向量),然后分别用该向量对m个复合物体进行element-wise相乘,并将第一个作为关系向量的m*1维行向量,第二个作为1*m维列向量,将这两个向量对应项相加合并成为m*m维向量作为关系向量(金黄色的部分)。涉及的公式如下:

  其中Gl为第一个问题向量,Gr为第二个问题向量,Rij为最终的m*m维关系向量。             

  第三步:产生新的m个复合物体embedding

  利用第一步得到的Attention,对产生的m*m维关系向量进行操作得到新的m个复合物体(这里论文原本打算直接保留m*m个向量送到下一轮,但是这样会导致复杂度成指数级上升)涉及到的公式为:


(4) 决策部分:

  对于CoR部分产生的T个输出向量Ot,我们将之连接起来成为新的长向量,再将之和问题映射到同一维度,进行Element-wise乘法,最后经过矩阵变换+softmax成为最终每个类别的概率。涉及的公式如下:

 这里的O*表示长向量,H表示Element-Wise得到的向量,a表示最终的概率向量。

(4) 训练部分:

  训练的时候,主要是确定训练集的概率向量。如果对于一个Q对应一个A的训练集,显然我们取A那一维度的值为1,其它都取0即可。但VQA数据集的答案是由多个人标记的。标记的结果可能不同。因此需要平均一下:

  对于最终的loss我们用K-L散度计算:

实验

(1) 在各数据集上取得的成果:


从上表中可以看出,在几乎所有的数据集上,模型都有提升,有些问题类型的提升不是很明显,但在ColorNum这两类问题的提升较大,有将近6个百分点。

(2) 可视化:

  这一部分中,本文对CoR过程中产生的复合物体进行了可视化,可视化的方法是遍历1105904×36个方框,并对方框中图片的内容计算其与复合物体的相似度。其中红色方框和蓝色方框分别是Attention中权重最大的两个复合物体

其中前三个问题都得到了很好的回答,而且复合物体寻找也是正确的,最后一个判断错误的原因可能是因为该问题太复杂,而CoR的跳数在本文中取了3跳。可能无法解决该问题。

总结

本文提出了VQA系统中利用推理链CoR解决多跳推理问题的方法,通过将图片中的物体进行多步的组合形成复杂的物体,并利用问题对这些物体进行选择和重新组合,最终取得答案需要的那些物体从而解决问题的方法。

 



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
6

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【斯坦福CS520】向量空间中嵌入的知识图谱推理,48页ppt
专知会员服务
97+阅读 · 2020年6月11日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
234+阅读 · 2020年4月18日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
167+阅读 · 2020年2月13日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
论文浅尝 | 利用 KG Embedding 进行问题回答
开放知识图谱
21+阅读 · 2019年7月7日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
论文浅尝 | 近期论文精选
开放知识图谱
5+阅读 · 2018年7月8日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
25+阅读 · 2018年6月26日
论文浅尝 | 基于知识图的问答变分推理
开放知识图谱
6+阅读 · 2018年5月6日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
99+阅读 · 2020年3月4日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
6+阅读 · 2018年3月31日
VIP会员
相关资讯
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
论文浅尝 | 利用 KG Embedding 进行问题回答
开放知识图谱
21+阅读 · 2019年7月7日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
论文浅尝 | 近期论文精选
开放知识图谱
5+阅读 · 2018年7月8日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
25+阅读 · 2018年6月26日
论文浅尝 | 基于知识图的问答变分推理
开放知识图谱
6+阅读 · 2018年5月6日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
相关论文
Top
微信扫码咨询专知VIP会员