破局数据困境,迭代一年的终版解决方案竟是纯规则方法!

2022 年 6 月 21 日 夕小瑶的卖萌屋

文 | Severus

大家好,我是Severus,一个致力于做好中文自然语言理解的老程序员。

一年前,我在萌屋的第一篇推文(在错误的数据上,刷到 SOTA 又有什么意义?)中,重点讲述了关系抽取任务所面临的数据质量困境。但在当时,我也不得不承认,即便我将问题点出,大家也都同意这个痛点,我们也仍旧没有好的方法去批量构造高质量的数据,这也给我的下一步工作带来了很大的困难。

继续回归远监督?那么就又要面对无尽的数据清洗工作,以及面对知识库未收录的数据时,仍会出现的大量缺失。而远监督之外的规则?中文又没有相对应的解析结构能够指导我们产出更好的数据。

即便困难重重,我们也没有放弃探索。时隔一年,我们终于想明白了其中的一些问题,以及做出了一些成果,在这篇推文中,分享给大家。

首先上效果:

schema 预测与自然语义预测

实际上,使用远监督来做数据的关系抽取任务,虽然其出发点未必如此,但皆可看作是 schema 预测任务。这也出于在任务定义时,总想要一步到位,做得“优雅”。如:两个人结婚,则直接要求模型预测“妻子”与“丈夫”的关系;一个人唱了一首歌,则要求模型预测这个人的职业是歌手等。由此,则衍生了一些伪命题,如所谓重叠关系问题等。

而正如我所讲,这些答案看似合理,但这种“合理”不过是我们预先知道了事实之后,所感受到的一种错觉。实际上,如果完全使用任务文本中的自然语义,哪怕是抽取后加入逻辑推断,有些答案也无法得出(比如,唱过歌的人不一定是歌手,结婚的人也很难分辨妻子丈夫关系)。那么,任务中所要求的答案,多数则是需要其他的事实知识辅助推断得出,而从技术上,我们又无法假定,模型能够精准记住、使用世界上所有的事实知识(又或者说这件事是不可能的,首先收录不可能完全,同时统计模型会泛化),也就是说,理想化的逻辑推断几乎是不可能存在于统计模型之中的。那么,schema 预测则一定会导向不合理的泛化。

如这段文本:克里斯汀·斯图尔特与相恋7年的女友订婚

如果模型没有预先记住克里斯汀·斯图尔特的性别,则很容易得到由 schema 预测其他答案时,泛化得到 <克里斯汀·斯图尔特,性别,男> 这一关系,而实际上……

所以,我一直主张的是,关系抽取任务应当回归到自然语义中,即答案完全从输入文本中触发得到。需要基于推断得到的关系,放到任务特化的推理步骤进行。

即,“克里斯汀·斯图尔特与相恋7年的女友订婚”这段文本中,关系抽取模块仅抽取:<克里斯汀·斯图尔特,订婚,女友>,而 <克里斯汀·斯图尔特, 性别,?> 由推理模块结合其他信息完成。

最近我司与中科院共同发表的 UIE,则是给出了一种使用 DNN 模型从自然语义中做信息抽取的实例,其模型思路上和我的解法大同小异,而其最大的难题仍旧是,如何构造出准确又全面的训练数据

中文数据的难题

实际上,想要得到大规模的训练样本,最简便的方法,就是整合各大已有数据集,无论是公开的,还是非公开的。但是多源数据集整合的过程中,则必然会存在一个问题:数据集标准不一致问题。例如,“苏里南”这一 mention,可能在A数据集中被标为“世界地区”,在B数据集中被标为“国家”。或 schema 定义不一致,A数据集中只定义了“所属”,而B数据集中定义了“首都”。

同样的头尾实体,相似触发的文本,如果最终的答案不一致,则会对统计模型造成很大的困惑。

而这样的问题,每增加一份数据集,每切换一次领域,则需要重新面对一次,而如果是 model-centric 地做这个任务,又不会想要花大力气在任务数据上,可造成的结果又是随着数据规模的扩大,trick 也会不断增加,反倒消耗了很多的精力。

所以,我们决定设计一个方法,能够简单、灵活配置,并较准确地抽取出文本中的已配置关系(它一定是一个规则的)。而首先,我们就先要有一个中文文本的解析表示方法,将中文无限的词和表达方式收拢到有限的表示模式中,从而至少实现配置可枚举的体系。

中文的解析体系

之前的推文中,我提到过,中文和英文存在很大的区别。具体来讲,中文相比于英文,存在以下特性:

  • 类有定职则词无定类:即如果将句子中每一个词与句子中的成分对应起来,则一个词可能会有多个词性
  • 词有定类则类无定职:如果将一个词固定为一个词性,则该词性的功能不稳定

这个特性也就决定了,纯语法结构的词类体系无法适用于中文,也就是说,词性标注、依存结构树等英文解析方法无法完全适用于中文。所以我们也只能重新去设计中文的解析体系。

所幸,中文语言学的先辈们早已给出了分类的准则,即按照实词虚词分别划分,具体的划分准则为:

  • 凡本身能表示一种概念者,叫做 实词,其分类当以概念的种类为根据
  • 凡本身不能表示一种概念者,叫做 虚词,其分类当以其在句中的职务为根据

所以,我们根据语义划分实词,根据语法划分虚词,最终得到了一个中文词类的全划分体系,同时训练得到一个中文词类标注工具,其展示效果如下:

至此,我们的关系抽取工具的先决条件算是大体完成。

关系的触发逻辑

搞定了上述的词类划分及文本标注后,我们相当于已实现将无限的词收拢到了有限的词类体系中,接下来,而待抽取的关系,则变成了仅发生在词类与词类之间,便可以枚举出来。例如,人物类_实体作品类_实体之间的关系可以是“创作”,而“创作”的触发词(如作词、作曲、演唱、执导、出演等)或触发pattern,则可以通过知识库枚举得到,如此,则实现了灵活配置。

那么,接下来一个问题则是,我们如何从现在的序列解析结果中,得到关系三元组数据呢?

要解决这个问题,我们依旧要从中文语言学的成果中寻找答案:==中文更偏孤立语,注重意合,依靠词序和词之间的意义联系成句,词性、句法特征弱==。也就是说,我们在解析的时候,可以尝试摒弃所谓句法特征,只是从次序上下手。于是,我们发现,只需要覆盖好 SPO 的几种常用表达顺序,单向搜索,即可覆盖大部分简单句。

例如,对于<张艺谋,创作,十面埋伏>这一 SPO 三元组,常用表达顺序有如下几种:

  • S-P-O:张艺谋执导了《十面埋伏》。
  • S-O-P:张艺谋是《十面埋伏》的导演。
  • O-S-P:《十面埋伏》是张艺谋执导的电影。
  • O-P-S:《十面埋伏》的导演是张艺谋。

然而,这种模式仍然过于复杂,如遇到多组 SPO 关系并存的文本,如果要完全照顾到这四种表达顺序,则很容易发生混乱,难以得到严格对应的三元组。所以,我们设计了互反关系,即头实体和尾实体对调后,对应的反向关系。例如三元组<张艺谋,创作,十面埋伏>,则存在一个反向三元组<十面埋伏,创作者,张艺谋>。那么,当我们找到一个头实体之后,只需要考虑它之后的部分(即 S-P-OS-O-P 两种表达顺序)就行了。

同时,我们部分参考了英文语法中,关于屈折词的定义。即屈折词本身,定义了其作用范围。我们也认为,触发词不仅定义了语义,同时也定义了触发方向,所以部分触发词我们也配置了其尾实体搜索方向,进一步提升精度。

另外,我们认为,规范表达中,关系触发和尾实体一定实在同一个短语中出现,所以,触发关系之后,寻找尾实体的过程中,我们仅搜索与触发在同一个短语中的实体及相关元素。

于是,参考了语言学先辈们总结的中文规律,使用以上的解析体系,我们用纯规则的方法,做出来了这样一个可简单配置的信息抽取工具,可以用来方便地产出信息抽取样本,无论是用于微调前段时间发布的 UIE,还是直接用于领域文档抽取,相信都可以是个有力的工具。

这个工具叫做 WordTag-IE,现已在 PaddleNLP 中开源。

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge

展望与讨论

在文章的开头,我的自我介绍是“致力于做好中文自然语言理解”,诚然,自然语义中的信息抽取,是能够表明语言理解能力的,我们也认为,做文本标注的下一步,就是做信息抽取。因此,我们发布了WordTag-IE。

但是,我们现在也发现,即使信息抽取工具优化到理想态(无论是UIE这类的模型工具,还是WordTag-IE这类的规则工具),其结果直接作为中文理解的特征,仍然是不够的。比如对话结构建模,或文本生成控制,所需要的信息不仅仅是 SPO 就能可以满足的。

所以,我们就开了一个脑洞,既然我们已经做了语义序列解析,那么能否更进一步,做出来一段文本的语义结构化解析结果呢?而这个结构化的结果,则可能可以真正发挥大用处,比如上文提到的对话结构建模、文本生成控制。因为,语义结构可以弥补 DNN 模型在长期记忆上的不够精准的短板,结构化数据既保证了信息全面,也更加适用于归一和检索,在需要长期记忆的场景下,能够快捷、精准地找到所需的信息,给 DNN 模型以必要的提示。

希望在不久的将来,我可以在这里,继续向小伙伴们报告我最新的成果。

萌屋作者:Severus

Severus,在某厂工作的老程序员,主要从事自然语言理解方向,资深死宅,日常愤青,对个人觉得难以理解的同行工作都采取直接吐槽的态度。笔名取自哈利波特系列的斯内普教授,觉得自己也像他那么自闭、刻薄、阴阳怪气,也向往他为爱而伟大。

作品推荐

  1. 深度学习,路在何方?
  2. 数据还是模型?人类知识在深度学习里还有用武之地吗?
  3. 在错误的数据上,刷到 SOTA 又有什么意义?

后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

登录查看更多
0

相关内容

关系抽取指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及(mention)链接起来的任务。关系提取任务需要在一组工件(通常来自文本或XML文档)中对语义关系提及进行检测和分类。该任务与信息抽取(IE)的任务非常相似,但是IE还需要删除重复关系(消除歧义),并且通常指的是提取许多不同的关系。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
因果推理:连接数据和现实
专知会员服务
42+阅读 · 2022年8月25日
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
40+阅读 · 2020年11月22日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
26+阅读 · 2020年1月16日
为什么深度学习是非参数的?
THU数据派
1+阅读 · 2022年3月29日
GPLinker:基于GlobalPointer的事件联合抽取
PaperWeekly
4+阅读 · 2022年3月22日
互联网说不加班,笑死我了
人人都是产品经理
0+阅读 · 2022年2月27日
当运营沦为“流水线”工人,还怎么实现高薪梦?
人人都是产品经理
0+阅读 · 2022年2月23日
开局一段扯,数据全靠编?真被一篇“神论文”气到了
夕小瑶的卖萌屋
0+阅读 · 2021年12月12日
工作6年,谈谈我对“算法岗”的理解
夕小瑶的卖萌屋
0+阅读 · 2021年10月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
理解人类推理的深度学习
论智
17+阅读 · 2018年11月7日
wGAN如何解决GAN已有问题(附代码实现)
数据派THU
17+阅读 · 2017年6月27日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
18+阅读 · 2020年7月13日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
13+阅读 · 2019年11月14日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关资讯
为什么深度学习是非参数的?
THU数据派
1+阅读 · 2022年3月29日
GPLinker:基于GlobalPointer的事件联合抽取
PaperWeekly
4+阅读 · 2022年3月22日
互联网说不加班,笑死我了
人人都是产品经理
0+阅读 · 2022年2月27日
当运营沦为“流水线”工人,还怎么实现高薪梦?
人人都是产品经理
0+阅读 · 2022年2月23日
开局一段扯,数据全靠编?真被一篇“神论文”气到了
夕小瑶的卖萌屋
0+阅读 · 2021年12月12日
工作6年,谈谈我对“算法岗”的理解
夕小瑶的卖萌屋
0+阅读 · 2021年10月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
理解人类推理的深度学习
论智
17+阅读 · 2018年11月7日
wGAN如何解决GAN已有问题(附代码实现)
数据派THU
17+阅读 · 2017年6月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
Arxiv
18+阅读 · 2020年7月13日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
13+阅读 · 2019年11月14日
Arxiv
11+阅读 · 2018年5月13日
Top
微信扫码咨询专知VIP会员