论文浅尝 | 利用推理链进行视觉问题回答 - 专知

会员服务 ·

0

论文浅尝 | 利用推理链进行视觉问题回答

2019 年 4 月 22 日 开放知识图谱

论文笔记整理：吴杨，浙江大学计算机学院，知识图谱、NLP方向。

http://papers.nips.cc/paper/7311-chain-of-reasoning-for-visual-question-answering.pdf

动机

在视觉问题回答中，较为复杂的问题经常需要多步骤的推理才能够回答，比如说“What isplaced next to the bus on the right of the picture?”这样的问题，我们需要先根据(bus, on theright of, picture)这组关系找到bus on the right这个复合物体，然后继续去寻找next to [buson the right]这个物体最终来解决这个问题。而本文则提出了一个VQA的推理链(Chain of Reasoning, CoR)，能够充分利用图片和问句的信息对复杂问题中的关系和复合物体的寻找，并取得了非常好的效果。本文的主要贡献在于：

提出了 VQA 推理链方法，能够动态的产生新的关系和复合物体以对问题进行推理
在 4 中主要的数据集上都产生了state-of-art的效果。
对CoR的中间过程产生的复合物体进行了可视化

方法

(1) 概述

VQA 的一种通用解法是将图片和问题映射到同一个向量空间后使用element-wise 乘法或者 MLP 等等转化成分类问题。本文的过程也是这样。图片经过RCNN转化为m个初始物体的向量表示之后，我们将这些物体两两组合起来，就可以获得m*m个关系的向量表示，然后利用问题的embedding从这m*m个关系向量中，产生出新一轮的m个复合物体，这样一直循环下去最终得到问题的答案表示的那个复合物体。也就是说，本文和常规的想办法将问题解构成简单问题的思路不同，反而是将已有的可能是答案的物体进行组合，再用问题去挑选和进一步组合这些物体。

(2) Data Embedding 部分：

将问题通过GRU转化成为维度的向量。将图片通过RCNN转化为维度的向量，其中V中保存着m个初始物体的向量表示

(3) CoR 部分：

第一步：产生Attention和本轮输出：

将图片转成的向量V作为第一轮CoR的复合物体（橘黄色部分），将其向量映射到Ds维度，将问题向量映射到Dp维度，然后分别采用2个变换矩阵将他们映射到同一维度Df，并使用element-wise乘法乘起来产生m维Df的向量（紫红色部分），上述过程重复K次，（Mutan方法）对得到的紫红色向量加到一起，经过MLP最终产生m维的attention（黑白灰3维部分）。总的来说，本步骤的目的是计算问题对复合物体的Attention。并准备产生m*m个关系embedding。最后，用这个Attention对复合物体进行操作就可以产生本轮的输出了。其中各部分的公式表示如下：

其中，Pt，St表示初步把问题和复合物体转化到的embedding。Ft表示将他们映射到同一维度并进行element-wise产生紫红色节点的部分。At表示获得的Attention，Ot表示本轮的输出。

第二步：产生m*m个关系的embedding：

这一步中，我们首先将问题转化成为两个向量（黑白灰很长的向量），然后分别用该向量对m个复合物体进行element-wise相乘，并将第一个作为关系向量的m*1维行向量，第二个作为1*m维列向量，将这两个向量对应项相加合并成为m*m维向量作为关系向量（金黄色的部分）。涉及的公式如下：

其中Gl为第一个问题向量，Gr为第二个问题向量，Rij为最终的m*m维关系向量。

第三步：产生新的m个复合物体embedding：

利用第一步得到的Attention，对产生的m*m维关系向量进行操作得到新的m个复合物体（这里论文原本打算直接保留m*m个向量送到下一轮，但是这样会导致复杂度成指数级上升）涉及到的公式为：

(4) 决策部分：

对于CoR部分产生的T个输出向量Ot，我们将之连接起来成为新的长向量，再将之和问题映射到同一维度，进行Element-wise乘法，最后经过矩阵变换+softmax成为最终每个类别的概率。涉及的公式如下：

这里的O*表示长向量，H表示Element-Wise得到的向量，a表示最终的概率向量。

(4) 训练部分：

训练的时候，主要是确定训练集的概率向量。如果对于一个Q对应一个A的训练集，显然我们取A那一维度的值为1，其它都取0即可。但VQA数据集的答案是由多个人标记的。标记的结果可能不同。因此需要平均一下：

对于最终的loss我们用K-L散度计算：

实验

(1) 在各数据集上取得的成果：

从上表中可以看出，在几乎所有的数据集上，模型都有提升，有些问题类型的提升不是很明显，但在Color和Num这两类问题的提升较大，有将近6个百分点。

(2) 可视化：

这一部分中，本文对CoR过程中产生的复合物体进行了可视化，可视化的方法是遍历1105904×36个方框，并对方框中图片的内容计算其与复合物体的相似度。其中红色方框和蓝色方框分别是Attention中权重最大的两个复合物体

其中前三个问题都得到了很好的回答，而且复合物体寻找也是正确的，最后一个判断错误的原因可能是因为该问题太复杂，而CoR的跳数在本文中取了3跳。可能无法解决该问题。

总结

本文提出了VQA系统中利用推理链CoR解决多跳推理问题的方法，通过将图片中的物体进行多步的组合形成复杂的物体，并利用问题对这些物体进行选择和重新组合，最终取得答案需要的那些物体从而解决问题的方法。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文，进入 OpenKG 博客。

登录查看更多

6

相关内容

视觉问答

视觉问答（Visual Question Answering，VQA），是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。翻译为中文：一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【翻译-ACL2020】使用知识库嵌入改进知识图上的多跳问答

【翻译-ACL2020】使用知识库嵌入改进知识图上的多跳问答

专知会员服务

69+阅读 · 2020年7月3日

【NeurIPS 2019】多关系庞加莱图嵌入，Multi-relational Poincaré Graph Embeddings

【NeurIPS 2019】多关系庞加莱图嵌入，Multi-relational Poincaré Graph Embeddings

专知会员服务

47+阅读 · 2020年6月15日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知会员服务

97+阅读 · 2020年6月11日

【AAAI 2020】InteractE: 通过增加特征交互来改进基于卷积的知识图谱嵌入， InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature Interactions

【AAAI 2020】InteractE: 通过增加特征交互来改进基于卷积的知识图谱嵌入， InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature Interactions

专知会员服务

52+阅读 · 2020年6月7日

2020年中国《知识图谱》行业研究报告，45页ppt

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

234+阅读 · 2020年4月18日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

36+阅读 · 2020年4月6日

17篇知识图谱Knowledge Graphs论文 @AAAI2020

17篇知识图谱Knowledge Graphs论文 @AAAI2020

专知会员服务

167+阅读 · 2020年2月13日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知会员服务

31+阅读 · 2020年1月10日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知会员服务

56+阅读 · 2020年1月10日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

46+阅读 · 2019年11月8日

论文浅尝 | 利用问题生成提升知识图谱问答

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

论文浅尝 | 利用 KG Embedding 进行问题回答

论文浅尝 | 利用 KG Embedding 进行问题回答

开放知识图谱

21+阅读 · 2019年7月7日

论文浅尝 | 通过文本到文本神经问题生成的机器理解

论文浅尝 | 通过文本到文本神经问题生成的机器理解

开放知识图谱

10+阅读 · 2019年6月30日

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

开放知识图谱

18+阅读 · 2019年6月4日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

论文浅尝 | 基于知识库的自然语言理解 04#

论文浅尝 | 基于知识库的自然语言理解 04#

开放知识图谱

14+阅读 · 2019年3月14日

论文浅尝 | 近期论文精选

论文浅尝 | 近期论文精选

开放知识图谱

5+阅读 · 2018年7月8日

论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题

论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题

开放知识图谱

25+阅读 · 2018年6月26日

论文浅尝 | 基于知识图的问答变分推理

论文浅尝 | 基于知识图的问答变分推理

开放知识图谱

6+阅读 · 2018年5月6日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

18+阅读 · 2018年1月9日

Do RNN and LSTM have Long Memory?

Do RNN and LSTM have Long Memory?

Arxiv

19+阅读 · 2020年6月10日

Knowledge Graphs

Arxiv

99+阅读 · 2020年3月4日

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

Arxiv

4+阅读 · 2020年1月11日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

14+阅读 · 2018年9月19日

Viewpoint Estimation-Insights & Model

Viewpoint Estimation-Insights & Model

Arxiv

3+阅读 · 2018年7月3日

Probabilistic Embedding of Knowledge Graphs with Box Lattice Measures

Arxiv

6+阅读 · 2018年5月17日

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年5月11日

Grad-CAM++: Generalized Gradient-based Visual Explanations for Deep Convolutional Networks

Arxiv

4+阅读 · 2018年5月8日

Visual Question Reasoning on General Dependency Tree

Arxiv

6+阅读 · 2018年3月31日

Investigations on Knowledge Base Embedding for Relation Prediction and Extraction

Arxiv

8+阅读 · 2018年2月6日

VIP会员

相关主题

注意力机制

相关VIP内容

【翻译-ACL2020】使用知识库嵌入改进知识图上的多跳问答

【翻译-ACL2020】使用知识库嵌入改进知识图上的多跳问答

专知会员服务

69+阅读 · 2020年7月3日

【NeurIPS 2019】多关系庞加莱图嵌入，Multi-relational Poincaré Graph Embeddings

【NeurIPS 2019】多关系庞加莱图嵌入，Multi-relational Poincaré Graph Embeddings

专知会员服务

47+阅读 · 2020年6月15日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知会员服务

97+阅读 · 2020年6月11日

【AAAI 2020】InteractE: 通过增加特征交互来改进基于卷积的知识图谱嵌入， InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature Interactions

【AAAI 2020】InteractE: 通过增加特征交互来改进基于卷积的知识图谱嵌入， InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature Interactions

专知会员服务

52+阅读 · 2020年6月7日

2020年中国《知识图谱》行业研究报告，45页ppt

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

234+阅读 · 2020年4月18日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

36+阅读 · 2020年4月6日

17篇知识图谱Knowledge Graphs论文 @AAAI2020

17篇知识图谱Knowledge Graphs论文 @AAAI2020

专知会员服务

167+阅读 · 2020年2月13日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知会员服务

31+阅读 · 2020年1月10日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知会员服务

56+阅读 · 2020年1月10日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

46+阅读 · 2019年11月8日

热门VIP内容

相关资讯

论文浅尝 | 利用问题生成提升知识图谱问答

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

论文浅尝 | 利用 KG Embedding 进行问题回答

论文浅尝 | 利用 KG Embedding 进行问题回答

开放知识图谱

21+阅读 · 2019年7月7日

论文浅尝 | 通过文本到文本神经问题生成的机器理解

论文浅尝 | 通过文本到文本神经问题生成的机器理解

开放知识图谱

10+阅读 · 2019年6月30日

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

开放知识图谱

18+阅读 · 2019年6月4日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

论文浅尝 | 基于知识库的自然语言理解 04#

论文浅尝 | 基于知识库的自然语言理解 04#

开放知识图谱

14+阅读 · 2019年3月14日

论文浅尝 | 近期论文精选

论文浅尝 | 近期论文精选

开放知识图谱

5+阅读 · 2018年7月8日

论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题

论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题

开放知识图谱

25+阅读 · 2018年6月26日

论文浅尝 | 基于知识图的问答变分推理

论文浅尝 | 基于知识图的问答变分推理

开放知识图谱

6+阅读 · 2018年5月6日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

18+阅读 · 2018年1月9日

相关论文

Do RNN and LSTM have Long Memory?

Do RNN and LSTM have Long Memory?

Arxiv

19+阅读 · 2020年6月10日

Knowledge Graphs

Arxiv

99+阅读 · 2020年3月4日

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

Arxiv

4+阅读 · 2020年1月11日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

14+阅读 · 2018年9月19日

Viewpoint Estimation-Insights & Model

Viewpoint Estimation-Insights & Model

Arxiv

3+阅读 · 2018年7月3日

Probabilistic Embedding of Knowledge Graphs with Box Lattice Measures

Arxiv

6+阅读 · 2018年5月17日

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年5月11日

Grad-CAM++: Generalized Gradient-based Visual Explanations for Deep Convolutional Networks

Arxiv

4+阅读 · 2018年5月8日

Visual Question Reasoning on General Dependency Tree

Arxiv

6+阅读 · 2018年3月31日

Investigations on Knowledge Base Embedding for Relation Prediction and Extraction

Arxiv

8+阅读 · 2018年2月6日

大家都在搜

基于大型语言模型

无人地面车辆

生成式人工智能

精益管理体系

图与推荐指南针

《Transformers 机器学习:深度探究》，284页pdf

微信扫码咨询专知VIP会员