论文浅尝 | 利用关系标签的主题语义知识为关系抽取提供监督 (IJCAI 2019)

2019 年 8 月 17 日 开放知识图谱

本文转载自公众号：知识工场。

作者：蒋海云，复旦大学2016级计算机博士生，研究方向为知识图谱与自然语言处理。目前已在 IJCAI，AAAI，ACL，DASFAA等会议上发表文章。

IJCAI 2019（The 28th International Joint Conference on Artificial Intelligence）将于当地时间8月10日至8月16日在中国澳门举行。作为人工智能领域最顶级的国际学术会议之一，本次会议投稿量有 4752 篇，接收率为 17.8%。知识工场实验室发表“关系抽取”相关论文一篇，名为《Relation Extraction Using Suervision from Topic Knowledge of Relation Labels》，以下为具体内容：

1、Introduction

关系抽取旨在基于文本上下文识别出实体对的语义关系。这些关系通常是预先定义好的。例如，给定实体对[ Microsoft, Bill Gates ]和句子“Bill Gates co-founded Microsoft withhis childhood friend Paul Allen”，我们希望抽取出关系“ founder ”。

传统的方法通常将关系抽取建模为分类问题或者标注问题。在这些方法中，不同的关系标签往往被视为不同的 ID。例如，在关系分类中，每个 ID 代表多分类问题的一个类别（ class ）。给定一个样本，模型将其映射到一个或多个关系 ID 。然而，关系标签包含着非常丰富的语义信息，这些语义信息被现有的关系抽取模型所忽略。我们认为，充分建模关系标签的语义信息并将其作为关系分类的监督信号，有望进一步提升关系抽取性能。

很显然，仅仅靠关系标签这个词组本身很难挖掘出太多的语义信息。因此，我们需要引入额外的信息作为关系的背景知识。为了克服这一挑战，本文求助于主题模型。对于预定义关系，我们通过相应的训练句子集合进行主题建模，进而从训练数据中挖掘出关系的主题知识。我们的基本假设是：对于每个关系，其标注句子集合包含几个潜在主题，并且这些主题在语义上与关系是相关的。通过主题建模，我们提取前k个带权重的主题词来表示关系的语义。因此，关系的主题知识被具体化为带权重的词袋（ weighted bag of words， WBoW ）。不难理解，每个主题词都刻画了关系的某些方面，而词的权重则刻画了它对关系的重要性。因此，一个被标注为该关系的句子应该匹配关系的某些重要方面。

图1中给出了一个例子来说明主题知识如何为关系抽取（ RE ）提供有效的监督信息。对于图左边的四个句子，我们希望推断这些句子是否表达了 CEO 关系。对于人类而言，我们知道第一句和第二句明确表达了这种关系，而第三句则较弱地表达了关系。进一步地，第四句则完全没有表达这种关系。通过引入CEO的主题知识，我们发现第一句和第二句与 CEO 关系的大多数重要主题词匹配，而最后一句与其中任何一个主题词都不匹配。因此，主题知识提供的语义信息能有效地支持关系推理。

2、Overview

我们在图2中给出了应用关系的主题知识的框架流程图。主要步骤如下。

步骤1：从训练句子中检索关系r的所有句子。

步骤2：获取 r 的主题知识，即通过主题建模从r的标记句子集合中提取前k个加权主题词。

步骤3：为句子-关系对（ s; r ）建立深度匹配网络。

步骤4：基于主题知识，通过 Word Mover Distance（ WMD ）计算 s 和 r 之间的语义距离 d ( s,r )。

步骤5：根据语义距离 d ( s,r ) 计算样本的重要性权重。

步骤6：基于深度匹配网络和样本重要性权重建立损失函数。

3、Framework Sentence-Relation Matching Network

整个句子关系匹配网络包括三部分：句子学习模块，关系学习模块以及句子关系匹配模块。

句子学习模块。 按照头尾实体的位置，我们将句子分成三部分。主要原因有两个。第一：在一个句子中，表达实体对关系的往往位于实体对之间。因此，每部分对于关系推理的贡献是不一样的。第二，为了后续注意力机制的处理，将句子分块可以显著提升效率。句子学习模块主要采用多头的注意力机制（ multi-head self-attention ）。此外，关系敏感的注意力机制（ relation-awareattention ）旨在将学习到的句子特征中关系敏感的部分抽取出来，从而降低噪声的影响。

关系学习模块。 关系学习模块的输入是关系的主题词集合。在该模块中，我们仍采用自注意力机制。但值得注意的是，在输入词袋中我们考虑了每个词的先验权重，因此，我们希望在自注意力机制学习中将该先验权重考虑进去。这在 weighted multi-head self-attention 中实现。

句子关系匹配模块。 基于学到的句子表示和关系表示，我们采用简单的全连接操作实现匹配建模。其中，匹配函数为：