[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

2021 年 2 月 19 日 专知

本文介绍近期被AAAI 2021录用的联机手写数学公式识别的工作“Graph-to-Graph: Towards Accurateand Interpretable Online Handwritten Mathematical Expression Recognition, AAAI2021”。该工作首次将手写数学公式底层的视觉关系建模和上层的层次结构建模和解析结合，提出了基于图到图（ Graph-to-Graph ， G2G ）学习的联机手写数学公式识别方法。这种范式相对于传统预定义规则的方法，能够端到端的训练；相对于深度图像到LaTeX生成系统，显式的嵌入了结构信息。该工作解决了在端到端识别公式的同时显式解析符号的位置和层次关系的难题，在国际手写公式识别竞赛the Competition on Recognition of Online Handwritten Mathematical Expressions (CROHME) [1]数据集上取得了state-of-the-art的识别性能。

图 1手写数学公式，其对应的符号关系树和LaTeX标签

一、研究背景

近年来的深度学习方法[2]将手写数学公式识别视作图像到LaTeX串生成的问题来处理。这种方法使用深度编-解码模型将脱机图片或者联机轨迹端到端的转换为目标LaTeX表达式。但是由于数学公式有着复杂度二维结构：(i)这种方法没有显式利用公式中存在的层次关系;(ii)也不能显式的将公式中的数学符号检测或分割出来。除了基于图像到LaTeX的方式，基于预定义语法规则虽然可以显式的分割数学公式中的手写符号，但是这些方法不能自动地从公式的标记语料中数据驱动地学习到数学语义和层次信息。

图2 G2G与现有识别器对比

二、模型结构

现有深度学习方法主要将手写数学公式识别视作图像到LaTeX串转换的问题来处理，这种方法被称为Image-to-Markup生成。在这种方法下，数学公式识别的范式被定义为：

其中，x是输入数学公式，y是对应的LaTeX表达式。正如前文所述，采用图像或串的形式没有有效利用数学公式中包含的结构信息。因此在该工作中，我们将输入联机数学公式表示成笔画关系图G_x，直接从数据中自动学习目标符号标签图G_y的生成：

图到图的联机数学公式识别框架如下图所示。

图3 模型网络结构

我们利用深度神经网络预提取输入数学公式的特征后，采用了一种改进的图注意网络（Graph Attention Network,GAT）来建模源图笔画间的空间以及时间关系，再使用对不同层次关系自适应传递信息的图卷积网络（Graph Convolutional Network, GCN）来学习目标符号标签图表示以及目标图与输入笔画关系图的对应关系。此外，我们还提出了一种新颖的子图注意机制，用以对齐输出符号结点与对应输入笔画部件构成的子图。

相对于基于语法的数学公式识别方法，我们提出的图到图学习模型可以进行端到训练，其损失函数定义为：

等式右侧，第一、二项为输入笔画关系图的结点和边表示学习损失；二、三项是目标符号标签图的结点与边表示学习损失；最后两项是对输入笔画关系图中子图位置注意和语义感知的损失。

图4 G2G系统识别过程可视化

由于G2G模型显式地学习了数学公式的结构信息，图编码器可以将输入部件分割成不同的子图区域，图解码器进一步结合子图注意机制把输入中的子图对应到目标符号，实现数学符号的识别和分割。G2G的识别和分割示例如图4所示。

三、实验结果

我们所提出的方法显著地提升了原有方法在CROHME2014 和2016数据集的识别精度，并且显式分割出了联机数学公式中的数学符号。

表1 模型在CROHME数据集上的性能

四、总结与讨论

该工作为手写数学公式识别提供了一个新颖有效的新范式，使得识别过程更加显式，精确。相对于语法方法，识别过程也可以更好的进行数据驱动的学习和训练。但是在脱机数学公式识别时，由于没有书写起落笔信息，输入数学公式的图元提取依然是一个需要解决的问题。此外，减少训练过程中符号级强标记的使用，也会使得识别器朝着实际应用的方向更前一步。

参考文献

[1] Harold Mouchère, Christian Viard-Gaudin, Richard Zanibbi, Utpal Garain: ICFHR2016 CROHME: Competition on Recognition of Online Handwritten Mathematical Expressions. ICFHR 2016: 607-612

[2] Yuntian Deng,Anssi Kanervisto, Jeffrey Ling, Alexander M. Rush: Image-to-Markup Generation with Coarse-to-Fine Attention. ICML 2017: 980-989

原文作者： Jin-WenWu, Fei Yin, Yan-Ming Zhang, Xu-Yao Zhang, Cheng-Lin Liu

撰稿：吴金文

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

专知便捷查看