【报告分享】刘成林：文档分析及模式识别系统学习领域研究进展与热点

会员服务 ·

【报告分享】刘成林：文档分析及模式识别系统学习领域研究进展与热点

2018 年 1 月 19 日 中国科学院自动化研究所 紫冬君

CASIA

点击蓝字关注我们↑↑↑↑

紫冬导读

模式识别国家重点实验室主任刘成林介绍了文档分析及模式识别系统学习领域的研究进展，重点阐述了其领导的PAL团队当前研究的热点和难点、主要方法和研究现状。

1月11日，自动化所模式识别国家重点实验室主任刘成林做了题为《模式分析与学习团队研究方向与最新进展》的报告，介绍了他所领导的模式分析与学习（PAL）团队的发展历程和研究进展，并重点阐述了当前研究的热点、主要方法和研究现状。

模式分析与学习（PAL）团队成立于2005年，现有研究员1名、副研究员5名、项目聘用人员3名，博士生12人、硕士生3人。主要研究方向包括文档图像分析与模式识别系统学习。在文档图像分析与识别方面，研究内容包括：文档图像处理、版面分析、文本检测与定位、文本行识别、上下文模型、文档检索等。在模式识别系统学习方面，研究内容包括：分类器设计、神经网络模型、生成-判别学习、鲁棒性置信度估计、结构模型与学习、自适应与在线学习等。

报告对文档分析领域做了综述性的介绍。刘成林指出，早期大家对这个领域往往直接叫文字识别，但实际上更完整的叫法应该是文档分析，因为这里面包括从文档图像中提取文本信息的多个步骤：文本分割、识别、上下文处理、语义信息提取等，文字识别只是其中的一个步骤。刘成林强调文档分析技术在实际生活中具有大量的需求并且也具备很大的科学研究价值。

报告现场

报告随后详细讲述了文档的种类划分、文档分析的基本流程、以及文档分析领域所面临的重要研究问题。报告还系统回顾了文档分析领域的发展历史：1920年代出现了第一个光学字符识别（OCR）专利，1950s-1960s出现了基于模板匹配的印刷体字符识别，1970s-1980s出现了基于特征的结构匹配以及统计方法，1990s研究的重心则是版面分析与分割，以及字符切分与识别的结合，并且在很多领域取得成功应用。2000s以后研究较多的方法包括隐马尔可夫模型（HMM）、手写词识别/文本行识别、深度学习模型等。

当前研究的热点和难点主要包括：自然场景文本检测与识别、复杂版面分析、以及自由手写文本识别。针对这些问题，刘成林详细介绍了几种主要方法并且宏观分析和对比了目前的性能状况，为大家阐述了文档分析领域的技术发展脉络和实际性能水平。

随后报告介绍了PAL团队在机器学习领域的研究重点：面向模式识别的模型与学习算法。首先阐述了文档分析中涉及的学习问题，包括：分类器设计与学习、字符结构分析、版面分析、文本检测等。模式识别的前沿问题则包括：模式结构理解、分类器结构自学习、小样本学习、自适应与在线学习、弱监督学习、以及模型的鲁棒性和可解释性等。

来自网络

针对这些问题，PAL考虑的主要技术方案包括：生成-判别混合模型、结构化预测、以及认知机理启发的模型和学习方法。报告随后还讲述了如何增强现有模式识别系统的鲁棒性，指出基于概率密度估计的产生式模型是提升鲁棒性的有效途径。

报告随后介绍了PAL团队在上述两个方向取得的一些最新进展。在文档分析与识别方面，包括基于偏旁部首的汉字识别、基于递归神经网络的机器自动书写、基于过切分和上下文融合的手写文本行识别、基于直接回归的场景文本检测、基于滑窗卷积神经网络的自然场景文字识别、以及滑动窗卷积注意力模型。在模式识别系统学习方面，包括基于风格迁移的分类器自适应、结合数据局部风格一致性的在线自适应、卷积原型学习模型、融合CRF和深度随机森林的结构预测方法等。

报告最后对目前的研究现状提出了一些疑问：深度学习通过增加训练样本可以达到零错误吗？多少训练样本才够？人的学习是大样本吗？针对这些问题，刘成林指出文档识别需要从交互式模式识别、充分利用语言知识和上下文、字符结构理解、可靠性和拒识等角度展开研究，并且需要研究如何更好的利用大数据，如何在小数据上也获得较好的泛化性能。

来自网络

最后，刘成林对未来的研究方向进行了展望，从两个角度（模式识别与学习、文档分析与识别）分别指出了未来研究的一些方向，如结构化模型、生成模型、小样本学习、弱监督学习、在线学习和自适应、开放环境下模式识别的鲁棒性、复杂版面分析、文本检测和识别的优化模型、面向应用的文档识别技术研究等。

更多精彩内容，欢迎关注

中科院自动化所官方网站：

http://www.ia.ac.cn

欢迎后台留言、推荐您感兴趣的话题、内容或资讯，小编恭候您的意见和建议！如需转载或投稿，请后台私信。

文字整理：张煦尧

编辑：欧梨成

长

按

关

注

解锁更多智能之美

中科院自动化研究所

微信：casia1956

欢迎搭乘自动化所AI旗舰号！

登录查看更多

相关内容

刘成林

关注 0

刘成林，1989年本科毕业于武汉大学，1992年获北京工业大学工学硕士学位，1995年获中国科学院自动化研究所工学博士学位。1996年至1999年先后在韩国科学技术院（KAIST）和日本东京农工大学从事博士后研究工作。1999年至2004年在日立中央研究所先后任研究员和主任研究员。2005年1月回国，入选中国科学院“百人计划”（引进海外杰出人才计划）。现任中国科学院自动化研究所研究员、副所长，模式识别国家重点实验室主任，中国科学院大学人工智能学院副院长。研究方向为模式识别、图像处理、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇，其中包括国际期刊（IEEE Trans. on PAMI, Pattern Recognition等）第一作者论文20篇。合著文字识别方面的英文专著一本。获得授权发明专利5项。由于其在手写文字识别研究方面的突出成就，2005年在国际模式识别协会主办的国际文档分析与识别会议上获得IAPR/ICDAR Young Investigator Award （青年学者奖）。2008年获得国家杰出青年科学基金。现任国际期刊Pattern Recognition的副主编, Image and Vision Computing, International Journal on Document Analysis and Recognition和Cognitive Computation的编委，国内期刊《自动化学报》副主编。中国人工智能学会会士、模式识别专委会主任，中国自动化学会理事、模式识别与机器智能专委会主任，中国图象图形学学会常务理事，美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。个人主页：http://people.ucas.ac.cn/~liuchenglin

【开放书】SLAM 中的几何与学习方法，62页pdf

专知会员服务

111+阅读 · 2020年6月5日

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

124+阅读 · 2020年5月20日