The information provided by historical documents has always been indispensable in the transmission of human civilization, but it has also made these books susceptible to damage due to various factors. Thanks to recent technology, the automatic digitization of these documents are one of the quickest and most effective means of preservation. The main steps of automatic text digitization can be divided into two stages, mainly: character segmentation and character recognition, where the recognition results depend largely on the accuracy of segmentation. Therefore, in this study, we will only focus on the character segmentation of historical Chinese documents. In this research, we propose a model named HRCenterNet, which is combined with an anchorless object detection method and parallelized architecture. The MTHv2 dataset consists of over 3000 Chinese historical document images and over 1 million individual Chinese characters; with these enormous data, the segmentation capability of our model achieves IoU 0.81 on average with the best speed-accuracy trade-off compared to the others. Our source code is available at https://github.com/Tverous/HRCenterNet.


翻译:历史文献提供的信息在人类文明的传播中一直不可或缺,但也使这些书籍容易因各种因素而受到损害。由于最近的技术,这些文件的自动数字化是最迅速和最有效的保存手段之一。自动文本数字化的主要步骤可以分为两个阶段,主要是:字符分割和字符识别,其识别结果主要取决于分解的准确性。因此,在本研究中,我们只关注中国历史文献的特性分割。在这项研究中,我们提出了一个名为HRCenterNet的模型,该模型与无固定物体探测方法和平行结构相结合。MTHV2数据集由3,000多张中国历史文件图像和100多万中国个人字符组成;有了这些巨大的数据,我们模型的分解能力平均达到IOU 0.81,其速度-准确性交易与其它文件相比达到最佳程度。我们的源代码可在https://github.com/Tverog/HRCentNet上查阅。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
48+阅读 · 2020年10月21日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
专知会员服务
59+阅读 · 2020年3月19日
自动机器学习:最新进展综述
专知会员服务
116+阅读 · 2019年10月13日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
4+阅读 · 2020年6月12日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Adversarial Segmentation Loss for Sketch Colorization
Arxiv
0+阅读 · 2021年2月11日
Equalization Loss for Long-Tailed Object Recognition
Arxiv
5+阅读 · 2020年4月14日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2020年6月12日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Adversarial Segmentation Loss for Sketch Colorization
Arxiv
0+阅读 · 2021年2月11日
Equalization Loss for Long-Tailed Object Recognition
Arxiv
5+阅读 · 2020年4月14日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员