Many visual scenes contain text that carries crucial information, and it is thus essential to understand text in images for downstream reasoning tasks. For example, a deep water label on a warning sign warns people about the danger in the scene. Recent work has explored the TextVQA task that requires reading and understanding text in images to answer a question. However, existing approaches for TextVQA are mostly based on custom pairwise fusion mechanisms between a pair of two modalities and are restricted to a single prediction step by casting TextVQA as a classification task. In this work, we propose a novel model for the TextVQA task based on a multimodal transformer architecture accompanied by a rich representation for text in images. Our model naturally fuses different modalities homogeneously by embedding them into a common semantic space where self-attention is applied to model inter- and intra- modality context. Furthermore, it enables iterative answer decoding with a dynamic pointer network, allowing the model to form an answer through multi-step prediction instead of one-step classification. Our model outperforms existing approaches on three benchmark datasets for the TextVQA task by a large margin.


翻译:许多视觉场景包含包含关键信息的文本, 因此, 理解下游推理任务图像中的文本至关重要。 例如, 警告牌上的深水标签提醒人们注意现场的危险。 最近的工作探索了TextVQA的任务, 需要阅读和理解图像中的文本才能回答问题。 但是, TextVQA 的现有方法大多基于两种模式对两种模式的定制双对组合机制, 并局限于单一的预测步骤, 将TextVQA 投递为分类任务。 在这项工作中, 我们提议了一个基于多式变压器结构的TextVQA任务的新模式, 并配有丰富的图像文本代表。 我们的模型自然地将不同的模式融合在一个共同的语义空间中, 将自我注意嵌入到模式间和内部背景中。 此外, 它能够用动态的指针网络进行迭接答解码, 使得模型能够通过多步预测而不是一步分类形成答案。 我们的模型超越了现有三种文本VQA 任务基准数据集, 以大幅度的方式。

1
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
计算机视觉领域顶会CVPR 2018 接受论文列表
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
VIP会员
Top
微信扫码咨询专知VIP会员