破局数据困境，迭代一年的终版解决方案竟是纯规则方法！

2022 年 6 月 21 日 夕小瑶的卖萌屋

文 | Severus

大家好，我是Severus，一个致力于做好中文自然语言理解的老程序员。

一年前，我在萌屋的第一篇推文（在错误的数据上，刷到 SOTA 又有什么意义？）中，重点讲述了关系抽取任务所面临的数据质量困境。但在当时，我也不得不承认，即便我将问题点出，大家也都同意这个痛点，我们也仍旧没有好的方法去批量构造高质量的数据，这也给我的下一步工作带来了很大的困难。

继续回归远监督？那么就又要面对无尽的数据清洗工作，以及面对知识库未收录的数据时，仍会出现的大量缺失。而远监督之外的规则？中文又没有相对应的解析结构能够指导我们产出更好的数据。

即便困难重重，我们也没有放弃探索。时隔一年，我们终于想明白了其中的一些问题，以及做出了一些成果，在这篇推文中，分享给大家。

首先上效果：

schema 预测与自然语义预测

实际上，使用远监督来做数据的关系抽取任务，虽然其出发点未必如此，但皆可看作是 schema 预测任务。这也出于在任务定义时，总想要一步到位，做得“优雅”。如：两个人结婚，则直接要求模型预测“妻子”与“丈夫”的关系；一个人唱了一首歌，则要求模型预测这个人的职业是歌手等。由此，则衍生了一些伪命题，如所谓重叠关系问题等。

而正如我所讲，这些答案看似合理，但这种“合理”不过是我们预先知道了事实之后，所感受到的一种错觉。实际上，如果完全使用任务文本中的自然语义，哪怕是抽取后加入逻辑推断，有些答案也无法得出（比如，唱过歌的人不一定是歌手，结婚的人也很难分辨妻子丈夫关系）。那么，任务中所要求的答案，多数则是需要其他的事实知识辅助推断得出，而从技术上，我们又无法假定，模型能够精准记住、使用世界上所有的事实知识（又或者说这件事是不可能的，首先收录不可能完全，同时统计模型会泛化），也就是说，理想化的逻辑推断几乎是不可能存在于统计模型之中的。那么，schema 预测则一定会导向不合理的泛化。

如这段文本：克里斯汀·斯图尔特与相恋7年的女友订婚

如果模型没有预先记住克里斯汀·斯图尔特的性别，则很容易得到由 schema 预测其他答案时，泛化得到 <克里斯汀·斯图尔特，性别，男> 这一关系，而实际上……

所以，我一直主张的是，关系抽取任务应当回归到自然语义中，即答案完全从输入文本中触发得到。需要基于推断得到的关系，放到任务特化的推理步骤进行。

即，“克里斯汀·斯图尔特与相恋7年的女友订婚”这段文本中，关系抽取模块仅抽取：<克里斯汀·斯图尔特，订婚，女友>，而 <克里斯汀·斯图尔特, 性别，？> 由推理模块结合其他信息完成。

最近我司与中科院共同发表的 UIE，则是给出了一种使用 DNN 模型从自然语义中做信息抽取的实例，其模型思路上和我的解法大同小异，而其最大的难题仍旧是，如何构造出准确又全面的训练数据。

中文数据的难题

实际上，想要得到大规模的训练样本，最简便的方法，就是整合各大已有数据集，无论是公开的，还是非公开的。但是多源数据集整合的过程中，则必然会存在一个问题：数据集标准不一致问题。例如，“苏里南”这一 mention，可能在A数据集中被标为“世界地区”，在B数据集中被标为“国家”。或 schema 定义不一致，A数据集中只定义了“所属”，而B数据集中定义了“首都”。

同样的头尾实体，相似触发的文本，如果最终的答案不一致，则会对统计模型造成很大的困惑。

而这样的问题，每增加一份数据集，每切换一次领域，则需要重新面对一次，而如果是 model-centric 地做这个任务，又不会想要花大力气在任务数据上，可造成的结果又是随着数据规模的扩大，trick 也会不断增加，反倒消耗了很多的精力。

所以，我们决定设计一个方法，能够简单、灵活配置，并较准确地抽取出文本中的已配置关系（它一定是一个规则的）。而首先，我们就先要有一个中文文本的解析表示方法，将中文无限的词和表达方式收拢到有限的表示模式中，从而至少实现配置可枚举的体系。

中文的解析体系

之前的推文中，我提到过，中文和英文存在很大的区别。具体来讲，中文相比于英文，存在以下特性：

类有定职则词无定类：即如果将句子中每一个词与句子中的成分对应起来，则一个词可能会有多个词性
词有定类则类无定职：如果将一个词固定为一个词性，则该词性的功能不稳定

这个特性也就决定了，纯语法结构的词类体系无法适用于中文，也就是说，词性标注、依存结构树等英文解析方法无法完全适用于中文。所以我们也只能重新去设计中文的解析体系。

所幸，中文语言学的先辈们早已给出了分类的准则，即按照实词与虚词分别划分，具体的划分准则为：

凡本身能表示一种概念者，叫做实词，其分类当以概念的种类为根据
凡本身不能表示一种概念者，叫做虚词，其分类当以其在句中的职务为根据

所以，我们根据语义划分实词，根据语法划分虚词，最终得到了一个中文词类的全划分体系，同时训练得到一个中文词类标注工具，其展示效果如下：

至此，我们的关系抽取工具的先决条件算是大体完成。

关系的触发逻辑

搞定了上述的词类划分及文本标注后，我们相当于已实现将无限的词收拢到了有限的词类体系中，接下来，而待抽取的关系，则变成了仅发生在词类与词类之间，便可以枚举出来。例如，人物类_实体与作品类_实体之间的关系可以是“创作”，而“创作”的触发词（如作词、作曲、演唱、执导、出演等）或触发pattern，则可以通过知识库枚举得到，如此，则实现了灵活配置。

那么，接下来一个问题则是，我们如何从现在的序列解析结果中，得到关系三元组数据呢？

要解决这个问题，我们依旧要从中文语言学的成果中寻找答案：==中文更偏孤立语，注重意合，依靠词序和词之间的意义联系成句，词性、句法特征弱==。也就是说，我们在解析的时候，可以尝试摒弃所谓句法特征，只是从次序上下手。于是，我们发现，只需要覆盖好 SPO 的几种常用表达顺序，单向搜索，即可覆盖大部分简单句。

例如，对于<张艺谋，创作，十面埋伏>这一 SPO 三元组，常用表达顺序有如下几种：

S-P-O：张艺谋执导了《十面埋伏》。
S-O-P：张艺谋是《十面埋伏》的导演。
O-S-P：《十面埋伏》是张艺谋执导的电影。
O-P-S：《十面埋伏》的导演是张艺谋。

然而，这种模式仍然过于复杂，如遇到多组 SPO 关系并存的文本，如果要完全照顾到这四种表达顺序，则很容易发生混乱，难以得到严格对应的三元组。所以，我们设计了互反关系，即头实体和尾实体对调后，对应的反向关系。例如三元组<张艺谋，创作，十面埋伏>，则存在一个反向三元组<十面埋伏，创作者，张艺谋>。那么，当我们找到一个头实体之后，只需要考虑它之后的部分（即 S-P-O 和 S-O-P 两种表达顺序）就行了。

同时，我们部分参考了英文语法中，关于屈折词的定义。即屈折词本身，定义了其作用范围。我们也认为，触发词不仅定义了语义，同时也定义了触发方向，所以部分触发词我们也配置了其尾实体搜索方向，进一步提升精度。

另外，我们认为，规范表达中，关系触发和尾实体一定实在同一个短语中出现，所以，触发关系之后，寻找尾实体的过程中，我们仅搜索与触发在同一个短语中的实体及相关元素。

于是，参考了语言学先辈们总结的中文规律，使用以上的解析体系，我们用纯规则的方法，做出来了这样一个可简单配置的信息抽取工具，可以用来方便地产出信息抽取样本，无论是用于微调前段时间发布的 UIE，还是直接用于领域文档抽取，相信都可以是个有力的工具。

这个工具叫做 WordTag-IE，现已在 PaddleNLP 中开源。

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge

展望与讨论

在文章的开头，我的自我介绍是“致力于做好中文自然语言理解”，诚然，自然语义中的信息抽取，是能够表明语言理解能力的，我们也认为，做文本标注的下一步，就是做信息抽取。因此，我们发布了WordTag-IE。

但是，我们现在也发现，即使信息抽取工具优化到理想态（无论是UIE这类的模型工具，还是WordTag-IE这类的规则工具），其结果直接作为中文理解的特征，仍然是不够的。比如对话结构建模，或文本生成控制，所需要的信息不仅仅是 SPO 就能可以满足的。

所以，我们就开了一个脑洞，既然我们已经做了语义序列解析，那么能否更进一步，做出来一段文本的语义结构化解析结果呢？而这个结构化的结果，则可能可以真正发挥大用处，比如上文提到的对话结构建模、文本生成控制。因为，语义结构可以弥补 DNN 模型在长期记忆上的不够精准的短板，结构化数据既保证了信息全面，也更加适用于归一和检索，在需要长期记忆的场景下，能够快捷、精准地找到所需的信息，给 DNN 模型以必要的提示。

希望在不久的将来，我可以在这里，继续向小伙伴们报告我最新的成果。

萌屋作者：Severus

Severus，在某厂工作的老程序员，主要从事自然语言理解方向，资深死宅，日常愤青，对个人觉得难以理解的同行工作都采取直接吐槽的态度。笔名取自哈利波特系列的斯内普教授，觉得自己也像他那么自闭、刻薄、阴阳怪气，也向往他为爱而伟大。

作品推荐

深度学习，路在何方？

数据还是模型？人类知识在深度学习里还有用武之地吗？

在错误的数据上，刷到 SOTA 又有什么意义？