When describing an image, reading text in the visual scene is crucial to understand the key information. Recent work explores the TextCaps task, \emph{i.e.} image captioning with reading Optical Character Recognition (OCR) tokens, which requires models to read text and cover them in generated captions. Existing approaches fail to generate accurate descriptions because of their (1) poor reading ability; (2) inability to choose the crucial words among all extracted OCR tokens; (3) repetition of words in predicted captions. To this end, we propose a Confidence-aware Non-repetitive Multimodal Transformers (CNMT) to tackle the above challenges. Our CNMT consists of a reading, a reasoning and a generation modules, in which Reading Module employs better OCR systems to enhance text reading ability and a confidence embedding to select the most noteworthy tokens. To address the issue of word redundancy in captions, our Generation Module includes a repetition mask to avoid predicting repeated word in captions. Our model outperforms state-of-the-art models on TextCaps dataset, improving from 81.0 to 93.0 in CIDEr. Our source code is publicly available.


翻译:当描述图像时, 在视觉场景中读取文本对于理解关键信息至关重要 。 最近的工作探索了文本 Caps 任务, \ emph{ i. e. } 图像, 以读取光字符识别符( OCR) 符号进行字幕说明, 需要模型阅读文本并将其覆盖在生成的字幕中。 现有方法无法生成准确描述, 原因是其 (1) 读能力差; (2) 无法在所有提取的OCR 符号中选择关键词; (3) 预言标题中重复单词 。 为此, 我们建议使用一个具有信心的非重复性多式变换器( CNMT) 来应对上述挑战 。 我们的CNMTM 包含一个阅读、 推理和 一代模块, 读取模块使用更好的 OCR 系统来增强读能力, 并嵌入最值得注意的符号 。 为了解决字幕中出现词冗余的问题, 我们的模块包含一个重复的遮罩, 以避免在标题中预测重复的单词。 我们的模型优于 。 在 CIDER 数据设置上, 从 81.0 到 93. 源代码 。

5
下载
关闭预览

相关内容

【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
40+阅读 · 2020年11月22日
【新书】图神经网络导论,清华大学刘知远老师著作
专知会员服务
357+阅读 · 2020年6月12日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
R语言自然语言处理:关键词提取与文本摘要(TextRank)
R语言中文社区
4+阅读 · 2019年3月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
VIP会员
相关资讯
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
R语言自然语言处理:关键词提取与文本摘要(TextRank)
R语言中文社区
4+阅读 · 2019年3月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员