为了解决通用视觉问答(VQA)方法无法处理图像中文字信息的缺陷,文本视觉问答(TextVQA)任务被提出。TextVQA为了回答与图像中文字相关的问题,需要同时考虑视觉场景和文字等多个模态的信息及其关系,具有很大挑战。目前主流的方法通过引入一个外部的光学字符识别(OCR)模块作为前处理,再将其与VQA框架结合预测答案,这会使得TextVQA性能很大程度上受到OCR精度的影响,具体表现为以下两种误差累积传播现象:1)OCR错误使得对文字的直接语义编码错误,导致多模态信息的交互推理过程出现偏差,从而无法定位出准确的答案。2)即使是在推理和定位答案正确的情况下,OCR错误仍然会导致最终从OCR结果中“复制”的答案错误。另外,视觉物体模态与图像文字、问题模态交互时存在语义间隔,使得多模态信息无法有效融合。

本文简要介绍来自中国传媒大学和中国科学院信息工程研究所合作的ACM MM 2021的论文“Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA”。文章提出了一个对文字识别结果鲁棒的文本视觉问答方法BOV:通过将光学字符识别(OCR)融入文本视觉问答(TextVQA)的前向处理流程,即借助来自文字检测和文字识别两个阶段的多模态线索,实现在没有准确识别文字的情况下也能获取对文字的合理的语义表示,并利用TextVQA任务丰富的上下文信息对解码的答案进行自适应修正。

成为VIP会员查看完整内容
15

相关内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【博士论文】基于深度学习的单目场景深度估计方法研究
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
58+阅读 · 2021年12月1日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
18+阅读 · 2021年11月28日
专知会员服务
18+阅读 · 2021年9月23日
【中科院自动化所刘成林研究员】跨模态零样本文字识别
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
33+阅读 · 2020年9月2日
基于表示模型的文本匹配方法
AINLP
6+阅读 · 2020年5月8日
论文浅尝 | 利用推理链进行视觉问题回答
开放知识图谱
6+阅读 · 2019年4月22日
论文浅尝 | 端到端神经视觉问答之上的显式推理
开放知识图谱
7+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2019年3月29日
Arxiv
6+阅读 · 2018年6月18日
Arxiv
6+阅读 · 2018年5月22日
VIP会员
相关VIP内容
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【博士论文】基于深度学习的单目场景深度估计方法研究
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
58+阅读 · 2021年12月1日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
18+阅读 · 2021年11月28日
专知会员服务
18+阅读 · 2021年9月23日
【中科院自动化所刘成林研究员】跨模态零样本文字识别
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
33+阅读 · 2020年9月2日
微信扫码咨询专知VIP会员