Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

近年来,视觉信息提取技术因其在文档理解、自动标注、智能教育等方面的先进应用而备受关注。现有的研究大多将这一问题解耦为文本点识别(text detection and recognition)和信息提取几个独立的子任务,在优化过程中完全忽略了它们之间的高相关性。在本文中,我们提出了一个面向真实场景的鲁棒视觉信息提取系统(VIES),它是一个统一的端到端可训练的框架,以单个文档图像作为输入和输出结构化信息,同时进行文本检测、识别和信息提取。信息提取分支从文本点识别中收集丰富的视觉和语义表征,进行多模态特征融合,提供更高层次的语义线索,有助于文本点识别的优化。此外,针对公共基准的不足,我们构建了一个全注释数据集EPHOIE (https://github.com/HCIILAB/EPHOIE),该数据集是第一个同时用于文本识别和视觉信息提取的中文基准。EPHOIE包含1,494张复杂布局和背景的试卷头图像,包括15,771个中文手写或打印文本实例。与最先进的方法相比,我们的VIES在EPHOIE数据集中显示了显著的优越性能,并且在端到端场景下,在广泛使用的SROIE数据集上获得9.01%的F-score增益。

https://www.zhuanzhi.ai/paper/621eb7d838c761426bd7337cf6af6f1f

成为VIP会员查看完整内容
21

相关内容

专知会员服务
20+阅读 · 2021年3月9日
专知会员服务
26+阅读 · 2021年3月5日
专知会员服务
13+阅读 · 2021年1月18日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
14+阅读 · 2020年12月30日
专知会员服务
107+阅读 · 2020年12月21日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
【ECCV2020】基于场景图分解的自然语言描述生成
专知会员服务
23+阅读 · 2020年9月3日
【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
96+阅读 · 2020年8月24日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
DuReader:真实场景中的中文阅读理解数据集
科技创新与创业
8+阅读 · 2017年12月5日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关VIP内容
专知会员服务
20+阅读 · 2021年3月9日
专知会员服务
26+阅读 · 2021年3月5日
专知会员服务
13+阅读 · 2021年1月18日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
14+阅读 · 2020年12月30日
专知会员服务
107+阅读 · 2020年12月21日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
【ECCV2020】基于场景图分解的自然语言描述生成
专知会员服务
23+阅读 · 2020年9月3日
【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
96+阅读 · 2020年8月24日
微信扫码咨询专知VIP会员