伯克利胡戎航124页博士论文：视觉与语言推理的结构化模型

2020 年 11 月 3 日 AI科技评论

作者 | 陈大鑫

本文介绍一篇胡戎航2020年的博士论文《视觉与语言推理的结构化模型》（《Structured Models for Vision-and-Language Reasoning》），本篇论文采用了考虑到人类语言、视觉场景和智能体技能中的模式和规律的体系结构模型，建立了数据效率高、易于推广的更好的推理模型。

作者介绍

胡戎航(Ronghang Hu)是Facebook人工智能研究(FAIR)的研究科学家，在CVPR、ICCV、ECCV、NeurIPS,等AI顶会上发表过十几篇论文，其中一作10篇。

他的研究兴趣包括视觉和语言推理和视觉感知。他于2020年在Trevor Darrell教授和Kate Saenko教授的指导下获得UC Berkeley的计算机科学博士学位。

2019年夏天和2017年夏天，他在全球顶级实验室FAIR做研究实习生，分别与Marcus Rohrbach博士和Ross Girshick博士（RBG大神！）一起工作。

他于2015年获得清华大学电子系学士学位，2014年，他在中国科学院计算技术研究所进行研究实习，山世光教授和王瑞平教授作指导。

个人主页：https://ronghanghu.com/

博士论文介绍

论文链接：

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-50.pdf

视觉和语言任务（如回答有关图像的问题、建立一个参考表达式或遵循自然语言指令在视觉环境中导航）需要对图像和文本的两种模式进行联合建模和推理。

我们已经见证了视觉和语言联合推理的重要进展，通常是通过在更大的数据集和更多的计算资源的帮助下训练的神经方法。

然而，解决这些视觉和语言的任务是否像构建具有更多参数的模型、并在更多数据上训练它们一样简单吗？

如果不是，我们又该怎样才能建立数据效率高、易于推广的更好的推理模型呢?

本篇论文通过视觉和语言推理的结构化模型来回答上述问题，该模型采用了考虑到人类语言、视觉场景和智能体技能中的模式和规律的体系结构模型。

第二章中 ，作者从引用表达式基础的任务开始提出的组合模块网络（CMNs）考虑了这些表达式中的组合结构，可以显著地提高准确性和泛化性。

第三章中 ，作者使用基于与问题推理步骤相一致的动态组合模块的端到端模块网络(N2NMNs)进一步解决了可视化问题回答任务。

第四章中 ，作者扩展了模块化推理的研究，提出了一种堆栈神经模块网络（SNMNs），该网络能够自动地引导具有可解释推理步骤的模块布局。

第五章中 ，除了模块化推理之外，作者还提出了用语言条件图网络（LCGNs：Language-Conditioned Graph Networks）构造视觉场景的上下文感知表示，并解决了第六章中用迭代指针增强多模态Transformers读取图像中的文本进行问答的问题。

第六章中 ，作者展示了嵌入（embodied）任务也需要结构化模型。

第七章中 ，作者提出了导航教学跟随任务的Speaker-Follower模型，并给出了一对speake模型和一个互补的follower模型。

最后，在所有这些场景中，作者表明，通过考虑任务和输入模式中的结构，本文提出的模型比非结构化模型的性能和推广性能都要好得多。

论文目录

本文模型：

（a）本文的模型学习将一个表达式解析成带有注意力（attention ）的主语、关系和宾语的语言表达。

（b）定位模块将主语或宾语与每个图像区域匹配，并返回一元概率unary score 。

（c）关系模块与一对区域匹配一个关系，并返回一个成对的分数。

应用案例：

在给定一幅图像和一个表达式的基础上，我们学习如何将表达式解析为带有注意力的主语

、关系

和宾语

的向量表示，并用两种模块将这些文本成分与图像区域对齐。

定位模块输出每个单独区域的分数，而关系模块生成区域对的分数。

这些输出被整合到区域对的最终分数中，产生顶部区域对作为grounding 结果。

用于组合VQA的端到端模块网络：

本文的方法首先计算问题的深度表示，并将其作为使用RNN实现的layout预测策略的输入。该策略发出一系列结构动作，用反向波兰表达式指定模块化神经网络的模板，以及一系列注意力行为，并从输入句子中提取这些神经模块的参数。这两个序列被传递给网络构建器，网络构建器动态地实例化适当的神经网络，并将其应用于输入图像以获得答案。

通过堆栈神经模块网络的可解释的神经计算模型:

该模型通过模块权重w（t）来预测一个连续的布局，并使用内存堆栈以软方式执行模块。