论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

2019 年 5 月 26 日 开放知识图谱

论文笔记整理：余海阳，浙江大学硕士，研究方向为知识图谱、自然语言信息抽取。

链接：https://www.aaai.org/Papers/AAAI/2019/AAAI-GaoTianyu.915.pdf

动机

现有的关系分类方法主要依赖于远程监控（DS），因为目前还没有大规模的监控训练数据集。虽然DS自动标注了足够多的数据用于模型训练，但是这些数据的覆盖范围仍然相当有限，同时很多长尾关系仍然存在数据稀疏的问题。另外直觉上说，人们可以通过学习很少的实例来掌握新的知识。因此我们通过将RC问题形式化为一个少样本学习（FSL）问题，给出了一个不同的RC观点。然而，目前的FSL模型主要针对低噪声的任务，难以直接处理文本的多样性和噪声。在本文中，我们提出了一种基于混合注意力机制的原型网络来解决含噪的少样本RC问题。我们设计了基于原型网络的实例级和特征级注意方案，分别突出了关键的实例和特征，显著提高了RC模型在含噪FSL场景中的性能和鲁棒性。此外，我们的注意方案加快了RC模型的收敛速度。实验结果表明，我们的基于注意力混合模型需要更少的训练迭代，并且优于最先进的基线模型。

亮点

文章的亮点主要包括：

（1）提出了一种基于混合注意力机制的原型网络来处理含噪的少样本关系分类任务，实例级的注意力强调与查询有关的实例，特征级注意力减轻了少样本稀疏性的问题；

（2）训练时相比其他FSL模型收敛得更快。

模型

文中设计的混合注意力机制的原型网络模型如下：

基本模型主要包括：

（1）样本实例编码：输入的每个实例句子，计算每个词语的word embedding和相对两个实体的positionembedding，将两个embedding拼接起来后输入到CNN网络中再做最大池化，输出的结果就是每个实例句子的编码信息。

（2）原型网络计算原型：原始的原型网络计算原型的方法是在suppprt set中求实例句子的平均值作为每个关系的原型。我们任何原型网络求解原型的思想，但是直接求平均的方法对每个输入样本的权重默认为相同值，这样当输入样本很少时，并且样本中带有噪音的情况下会明显影响原型的求解。

（3）样本实例级的注意力机制：基于上面所说，在少样本学习中若是训练过程样本带有噪音会明显影响原型的求解。我们提出了样本实例级的的注意模块，将更多的注意力放在与查询相关的实例上，减少了噪声的影响。我们将求解原型的公式从修改为，其中αj定义为

（4）特征级的注意力机制：原始的原型网络使用简单的欧式距离作为距离函数。由于少样本学习中支持集中实例较少，从支持集中提取的特征存在数据稀疏的问题。因此，在特征空间中对特殊关系进行分类时，某些维度具有更强的区分能力。我们提出了一种基于特征级的注意方法，以缓解特征稀疏性问题，并以更合适的方式测量空间距离。我们将公式 d(s1, s2) = (s1-s2)² 修改为d(s1,s2) = z_i *(s1-s2)²，其中z_i通过下图的特征级注意力提取器计算的。

实验

我们在FewRel数据集上评估我们的模型，这个数据集一共有100个关系，每个关系700条句子。另外为了证明模型在含噪数据上的鲁棒性，我们人为的设置了含噪数据：0%、10%、30%、50%。其他超参数设置如下：

具体实验结果如下表所示：

上表报告了在不同实验设置下对测试集的混合注意力和不混合注意力的原型网络的准确性。我们将原始的原型网络命名为“Proto”。“Proto- IATT”、“Proto- FATT”和“Proto- HATT”分别是实例级、特征级和混合注意的模型。从表中我们可以发现，我们的混合注意力为基础的原型网络在面对噪声数据时更加健壮。随着噪声率的提高，我们提出的模型的优点变得更加明显。

通过对实例和特征的混合关注和不同的评分，我们的模型知道在训练时应该关注实例和特征的哪些部分，同时捕获正确的反向传播路径。这有助于模型抵御数据噪声的不利影响。我们的模型在干净数据上甚至比基线做得更好，这证明了混合注意力在处理干净数据的少样本学习任务中也是有用的。我们并与其它FSL模型和RC模型进行了比较。对于RC模型，我们采用Finetune或kNN等简单的少样本模型方法对RC模型进行综合评价。对于FSL模型，我们对比了Meta Network (Munkhdalai and Yu 2017)、GNN (Garcia and Bruna 2018)和SNAIL(Mishraet al. 2018)，这些都是目前最先进的FSL模型。如表所示，我们的两个注意力模块都提出了改进性能的方法，我们提出的基于注意的混合方法取得了最好的效果。

总结

在本文中，我们提出了一种基于混合注意力的原型网络来完成含噪的少样本关系分类任务。我们的混合注意力机制由两个模块组成，一个实例级的注意力突出了与查询相关性更高的实例，另一个特征级的注意力机制减轻了特征稀疏性的问题。在我们的实验中，我们评估了我们的模型在几个随机噪声设置和少样本设置，表明了我们的混合注意力机制FSL模型显著提高了鲁棒性和计算效率。我们的模型不仅达到了最先进的结果，并在有噪声的数据中表现得更好，而且在训练时收敛得更快。在未来，我们将探索将我们的混合注意方案与其他FSL模型相结合，并采用更多的神经编码器使我们的模型更通用。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。