We propose a generalized class of multimodal fusion operators for the task of visual question answering (VQA). We identify generalizations of existing multimodal fusion operators based on the Hadamard product, and show that specific non-trivial instantiations of this generalized fusion operator exhibit superior performance in terms of OpenEnded accuracy on the VQA task. In particular, we introduce Nonlinearity Ensembling, Feature Gating, and post-fusion neural network layers as fusion operator components, culminating in an absolute percentage point improvement of $1.1\%$ on the VQA 2.0 test-dev set over baseline fusion operators, which use the same features as input. We use our findings as evidence that our generalized class of fusion operators could lead to the discovery of even superior task-specific operators when used as a search space in an architecture search over fusion operators.


翻译:我们为视觉问题解答任务建议了一个通用的多式联运聚合操作员类别(VQA),我们根据Hadamard产品确定了现有多式联运聚合操作员的概括性,并表明该通用融合操作员的具体非三重性即时性在VQA任务的开放性准确性方面表现优异,特别是,我们将非线性集合、特质定位和聚聚后神经网络层作为聚合操作员组成部分,最终使VQA 2.0 测试-dev对基准融合操作员设置的绝对百分点提高了1.1美元,这些操作员使用与投入相同的特征。我们利用我们的调查结果作为证据,证明我们通用的聚变操作员类别,在用于对聚变操作员进行建筑搜索时,可以发现甚至优越的特定任务操作员。

4
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
专知会员服务
59+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
5+阅读 · 2018年3月16日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员