Texts appearing in daily scenes that can be recognized by OCR (Optical Character Recognition) tools contain significant information, such as street name, product brand and prices. Two tasks -- text-based visual question answering and text-based image captioning, with a text extension from existing vision-language applications, are catching on rapidly. To address these problems, many sophisticated multi-modality encoding frameworks (such as heterogeneous graph structure) are being used. In this paper, we argue that a simple attention mechanism can do the same or even better job without any bells and whistles. Under this mechanism, we simply split OCR token features into separate visual- and linguistic-attention branches, and send them to a popular Transformer decoder to generate answers or captions. Surprisingly, we find this simple baseline model is rather strong -- it consistently outperforms state-of-the-art (SOTA) models on two popular benchmarks, TextVQA and all three tasks of ST-VQA, although these SOTA models use far more complex encoding mechanisms. Transferring it to text-based image captioning, we also surpass the TextCaps Challenge 2020 winner. We wish this work to set the new baseline for this two OCR text related applications and to inspire new thinking of multi-modality encoder design. Code is available at https://github.com/ZephyrZhuQi/ssbaseline


翻译:在日常场景中出现的文本可以被 OCR( Optical 字符识别) 工具所识别, 包含重要的信息, 如街道名称、 产品品牌和价格。 两个任务 -- -- 文本上的视觉问答和文本上的图像说明, 以及现有视觉语言应用程序的文本扩展, 正在迅速赶上。 为了解决这些问题, 许多复杂的多模式编码框架( 如混杂图形结构) 正在使用。 在本文中, 我们争辩说, 一个简单的关注机制可以在没有任何钟声和口哨的情况下做同样甚至更好的工作。 在这个机制下, 我们简单地将 OCR 符号特性分割成不同的视觉和语言注意分支, 并把它们发送到一个流行的变异器解码器解码器, 以生成答案或说明。 令人惊讶的是, 我们发现这个简单的基线模型相当强大 -- 它始终在两种流行的基准上优于状态( TextVQA) 和ST- VQA的所有三项任务, 尽管这些SOTA 模型使用更复杂的编码机制。 我们希望将它转换成基于文本的图像说明, 我们也超越了OB/ Chambreal Chambreal Challen Challen com com superal sules superational superationals.

3
下载
关闭预览

相关内容

Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2019年8月22日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
4+阅读 · 2019年8月22日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员