会员服务 ·

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

2018 年 12 月 5 日 PaperWeekly

在碎片化阅读充斥眼球的时代，越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里，你会快速 get 每篇精选论文的亮点和痛点，时刻紧跟 AI 前沿成果。

点击本文底部的「阅读原文」即刻加入社区，查看更多最新论文推荐。

这是 PaperDaily 的第 122 篇文章

作者丨卢靖宇

学校丨西安电子科技大学硕士

研究方向丨自然语言处理

目前远程监督技术已经成为了关系抽取的标准配备之一。尽管该方法很有效，但它并不是无代价的——其获取的训练样本中总是存在噪声。针对这一问题，本文设计了一个深度强化学习框架，用于移除原始训练集中的假阳性实例，并重建一个纯净的训练（测试）数据集，以提高关系分类的精度。

论文主要创新有以下三点：

1. 为提高远程监督关系抽取的鲁棒性，设计了一个新的深度强化学习框架；

2. 该算法独立于关系抽取模型的，是一种即插即用的技术，可应用于任何一个现有的远程监督关系抽取模型；

3. 文章通过实验证明了该方法可以提升目前最新提出的关系抽取模型的性能。

论文动机

本文是北京邮电大学和加利福尼亚大学 Santa Barbara 分校发表在 ACL 2018 上的工作，论文尝试使用一种深度强化学习框架来生成一个假正例指示器，该框架在没有任何监督信息的情况下自动识别每个关系类型实例集中的假正例实例。

与以往研究成果中直接移除假正例的操作不同，该策略则将这些假正例重新分配至相应关系类型的负例实例集中。文章在实验中，将使用该框架的模型的性能同当前最先进的几种模型进行了对比。结果显示，文章提出的框架能给远程监督关系抽取模型带来明显的性能提升。

问题引入

关系抽取是知识图谱构建的关键模块之一，同时它也是许多自然语言处理应用的重要组成部分，诸如情感分析、问答系统和自动摘要等。其核心任务是预测句子中实体间的关系。例如，给定一个句子“Barack Obama is married to Michelle Obama.”，关系抽取的任务即预测出句中两个实体间的关系为“配偶”关系。

关系抽取算法最为突出的特点之一是对标注实例存在着数量上的巨大需求，这一任务对于手工标注几乎是不可能完成的。在此背景下，远程监督关系抽取算法应运而生。但该技术并不是完美无缺——远程监督数据集始终无法摆脱噪声数据的影响。

为了抑制噪声，人们尝试利用注意力机制对含有噪声的句子集合赋予权重以选择出有效的训练样本。但是，文章认为这种只选择出一个最佳样本的思路并不是最优的策略。为了提高模型的鲁棒性，对于假正例不应只是简单的移除，而是应把它们放在正确的位置——负例集合中。

远程监督中的强化学习

文章提出一种基于强化学习（Reinforcement Learning，RL）策略的框架，尝试识别出数据集中的假正例，如下图所示。

▲ 本文提出的框架

与之前未充分利用远程监督样本的算法相比，该策略利用 RL agent 来进行远程监督关系抽取。这里 agent 的目标是根据关系分类器性能的变化，决定是保留还是移除当前的实例（即一个句子）。然后，框架进一步使基于深度强化学习策略的 agent 学会如何重建一个纯净的远程监督训练数据集。

对于强化学习（RL），其拥有的两个必备组件分别是：外部环境（external environment）和 RL agent，而一个具有良好鲁棒性的 agent 正是通过这两个组件的动态交互而训练出来的。

文章提出的 RL 方法各基本组成部分描述如下：

状态（States）：为了满足马尔可夫决策过程（Markov decision process，MDP）的条件，状态 s 同时包含当前句子和早期状态中移除的句子的信息。句子的语义和句法信息由一个连续实值向量表示。

文章参考一些性能较好的监督关系抽取算法，同时使用词嵌入和位置嵌入以将句子转换为向量。有了这些句子向量，可以将当前句子向量与早期状态中移除句子的平均向量级联起来，用以表示当前状态。对于当前句子的向量，给予相对较大的权重，以增大当前句子信息对决策行为的支配性影响。

行为（Actions）：在每一步中，agent 都会去判定实例对于目标关系类型是否为假阳性。每一个关系类型都拥有一个 agent，每个 agent 都有两个行为：对于当前实例，作出是删除或是保留的决定。

由于初始的远程监督数据集中包含有被错误标注的实例，期望 agent 能利用策略网络过滤掉这些噪声实例，由此得到的纯净数据集，以使远程监督获得更好的性能。

奖励（Rewards）：如前所述，对于文章提出的模型可简单的理解为：当错误标注数据被过滤掉后，关系分类器便能获得更好的性能。因此，文章中的模型采用结果驱动策略，以性能变化为依据，对 agent 的一系列行为决策进行奖励。奖励通过相邻 epochs 的差值来表示：

如上式所示，在第 i 步时，F1 增加，则 agent 将收到一个正奖励；反之，则 agent 将收到一个负奖励。通过这样的设置，奖励值将与 F1 的差值成比例，α 的作用是将 F1 的差值转换到有理数的范围内。为了消除 F1 的随机性，文章使用最近 5 个 epochs 的 F1 值的平均值来计算奖励。

策略网络（Policy Network）：对于每个输入的句子，策略网络负责判断该句子是否表述了目标关系类型，然后对于与目标关系类型无关的句子启动移除操作。这样，多元分类器就转换为了二元分类器。文章使用一个窗口大小为、kernel size 为的 CNN 来对策略网络 π(s;θ) 建模。

基于深度强化学习策略的agent训练

与远程监督关系抽取的目标不同，这里的 agent 只判断标注的句子是否表述目标关系类型，而并不对实体间的关系进行预测。

预训练策略

这里的预训练策略，是受到了 AlphaGo 的启发，是 RL 中加快 agent 训练的一种常见策略。对于某一具体的关系类型，直接将远程监督正例集合作为正例集合，同时随机选取远程监督负例集合的一部分作为负例集合。

为了在预训练过程中能更好的考虑初始信息，负实例的数量是正实例数量的 10 倍。这是因为，通过学习大量负例样本，agent 更有可能朝着更好的方向发展。文章利用交叉熵代价函数来训练这一二元分类器，其中，负标签对应于删除行为，正标签对应于保留行为。

基于奖励的agent再训练

如上图所示，为了能够识别出噪声实例，这里引入一种基于 RL 策略的算法，其中的 agent 主要用于过滤出远程监督正例集合中的噪声样本。

首先，将该集合分解为训练正例集合和验证正例集合，这两个集合中都会包含有噪声。相应地，训练负例集合和验证负例集合是通过从远程监督负例集合中随机抽取获得。

在每一个epoch中，通过随机策略 π(a|s) 从中过滤出噪声样本集合，进而获得新的正例集合。由于是被识别出的错误标注实例，因而将其补充进负例集合。

此时，每一个epoch中，训练集的规模是恒定的。之后，使用纯净数据集来训练关系分类器。预期的情况是，通过 RL agent 转移假正例，以提升关系分类器的性能。

为此，利用验证集合来测试当前 agent 的性能。首先，利用当前agent对验证集中的噪声实例进行识别和转移，获得；然后：利用该集合计算当前关系分类器的F1得分。最后，通过计算当前和上一 epoch 的 F1 得分的差值以获得奖励值。

在上述训练过程中，为避免 agent 将正例集合中的真正例误删，在每一个 epoch 中，对 RL agent 移除句子的数目设置一个阈值，即一个 epoch 中移除的句子数目不能超过该值。这样，如果 agent 决定移除当前实例，则其他实例被移除的概率将变小。

经过上面的强化学习过程，对于每一种关系类型，都得到了一个可作为假正例指示器的 agent，利用这些 agent 来识别出远程监督数据集中的假正例。

实验

数据集

文章使用的数据集是通过将从 Freebase 中获取的实体对与纽约时报（NYT）语料库对齐而得到的。该数据集中包含 52 种事实关系，以及 1 种特殊关系 NA（表示头部实体和尾部实体间不存在任何关系）。

实验设置

基于深度强化学习策略的agent

文章提出的 RL agent 仅包括保留和移除两个行为。因而，可以将 agent 建模为一个二元分类器。使用一个单窗口 CNN 作为策略网络。其超参数的具体设置如下表所示。强化学习的学习速率设置为。

奖励计算

由于简单网络对训练集的质量更为敏感，因而这里使用一个简单的 CNN 模型来评估 agent 的一系列行为。将与之比和与均设置为 2:1。

强化学习的有效性

下表列出了采用 RL 算法的模型与未采用 RL 算法模型的 F1 得分。表中，/peo/per/pob 表示 /people/person/place of birth。

首先，与 Original case 相比，Pretrain agent 取得了明显的进步：它不仅证明了预训练策略的合理性。更说明，经过基于 RL 策略的算法的再训练之后，F1 得分有了进一步的提升。上述比较说明，本文基于 RL 策略的算法能够使 agent 朝着正确的方向进化。

假阳性样本的影响

下面两张图说明，在 RL agent 的帮助下，同样的模型，分别使用纯净数据集和原始数据集进行训练，前者的性能要明显好于后者。

▲ 基于CNN的模型的PR曲线

▲ 基于PCNN的模型的PR曲线

案例研究

下面这张表显示的是 agent 选出的部分假正例样本示例。以实体对（Sami Moubayed, Syria）为例，很明显，对于关系 /people/person/place of birth，图中的语料没有提供任何相对应的信息。两句话都是在谈论政治分析师 Sami Moubayed 发表的对于 Syria 形势的分析，其内容与关系 /people/person/place of birth 毫无关联。