总结 | 清华大学韩旭：神经关系抽取模型

2018 年 9 月 28 日 AI科技评论

AI 科技评论按：关系抽取是自然语言处理中的重要任务，也是从文本中挖掘知识的基本途径之一。深度学习在关系抽取中的研究在近几年取得了广泛关注，其中基于远距离监督、带有注意力机制的神经网络模型成为解决问题的主要方法。在本次公开课中，讲者将梳理神经模型在关系抽取中的发展脉络，并分享相关领域的最新工作进展。

分享嘉宾：

韩旭，清华大学计算机系在读博士，导师是刘知远副教授，主要研究方向为自然语言处理，知识获取等。其研究工作曾在 AAAI、COLING、EMNLP 等发表。

公开课回放地址：

http://www.mooc.ai/open/course/548?=Leiphone

分享主题：神经关系抽取模型

分享提纲：

深度学习在关系抽取上的发展脉络。
基于注意力机制的神经关系抽取模型的剖析。
相关领域的最新工作进展的介绍。

雷锋网 AI研习社将其分享内容整理如下：

今天主要讲关系抽取领域的神经模型的发展近况，首先，给大家科普一下背景知识。

关系抽取属于信息抽取领域的子任务，主要的功能是让机器从一句话中抽出给定实体，并厘清相应关系，主要用于拓展知识图谱，把无结构的自由文本变成结构化数据。

在传统任务当中，我们会把关系抽取当作分类过滤器，先人为定义好关系，接着输入标注好实体的文本，然后判断文本属于定义关系中的哪一类。在某种程度上我们可以认为这是一个有监督的分类问题。

到了 2013 年，神经网络模型被运用到关系抽取领域里，也就是将句子作为特征放到神经网络里，通过神经网络习得特征来做分类。

这些模型存在一个问题，那就是需要大量的高质量数据和人力投入，代价较高，因此在推广上面临困难。

为了解决这个问题，远程监督的概念应运而生，它引入了这么一个假设：两个实体如果在外部的知识图谱中存在关系，那么包含该实体的句子就是图谱中的对应关系。通过这种启发式的方法，机器可以自动标注许多数据，再用于训练分类器做关系抽取。

远程监督的优势在于无需人工操作，且能普适大规模数据，然而却面临着噪音问题。

怎么解决这个噪音问题呢？

第一个方法是引入多实例学习，将所有包含同样实体的句子放到一个包（bag）里，在有需要时对包里的句子进行特征提取，进而预测实体之间的关系。

2015 年的一项工作把远程监督与多实例学习结合起来，从那时开始，关系抽取领域的关键模型基本上都由远程监督+多实例学习+神经网络组成。

注意力机制模型

这是我们实验室一个学长在 2016 年开展的一项工作，主要针对多实例学习中存在的噪音问题，通过引入注意力机制给包（bag）下的句子赋予权重，有效增强预测效果。

【更多关于注意力机制模型的运作原理，请回看视频 00：16：53 处，http://www.mooc.ai/open/course/548?=Leiphone】

从实验结果上看，添加注意力机制确实可以有效提升模型的效果。（黑线为增加了注意力机制的模型）

从 2016 年开始，关系抽取领域的关键模型在原来的远程监督+多实例学习+神经网络模型基础上，再增加一个注意力机制。

拓展模型

一、引入实体的描述信息来构建注意力机制

该工作将句子中的实体与对应的描述文本的词向量进行处理后得到两个特征，接着对两个特征做减法获得潜在关系，最后把潜在关系作为注意力机制的向量。

二、引入软标注机制

为了解决错误标注的问题，该工作给每个关系设置一个置信度，训练的过程中一旦发现预测的关系与原来标注的不一致，且置信度比原来的要高的话，就会默认原来的标注存在问题，并以新的预测关系进行替代。

三、引入对抗训练

通过刻意给句子制造噪音，无形中增强模型的抗噪能力。

四、抽取多个实体之间的关系

针对一大段文本中的多对实体进行关系抽取。这是业界未来一个可能的研究热点，因为和我们人类日常的认知机制比较接近。

五、融入知识表示模型

将知识图谱模型与关系抽取模型放在一块做联合训练，进而作为注意力机制起降噪作用。在这过程中，文本还可协助图谱进行完善和校正。

六、融入知识图谱的结构信息

通过引入知识图谱的关系层次结构（主副关系等），构建一个从粗粒度到细粒度的注意力机制特征。

七、跨语言关系的抽取

该工作的核心思路在于利用不同语言之间的注意力机制，给彼此的文本做跨语言的权衡计算。跨语言关系抽取的好处在于，可以有效利用语言之间的互补性，比如中文里较少的关系特征数据，可用英文数据来进行补充。

八、跨语言关系的抽取（升级版）

通过设立单独语义空间和跨语言统一空间，并引入对抗训练，优化最终跨语言关系的提取效果。

九、基于 few-shot learning 的研究场景

为了解决远距离监督的长尾数据问题，该工作通过构建一个人工标注的少样本数据集，让机器可以通过较少的样例进行学习推理。不过该工作目前更多应用在图像领域，自然语言领域有较大的发展空间。

最后给大家推荐一些相关资源。

前三项是我们组发完论文后的一些模型实现，后两项则是一些零零散散的工作开源代码。

我今天的分享就到此为止，谢谢大家！

以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网AI研习社社区（https://club.leiphone.com/）观看。关注微信公众号：AI 研习社（okweiwu），可获取最新公开课直播时间预告。

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

124+阅读 · 2020年5月20日

【北航】基于领域知识的深度学习医学图像分析研究综述,26页pdf

专知会员服务

139+阅读 · 2020年5月1日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

专知会员服务

64+阅读 · 2020年1月11日

【AAAI2020】从BERT归纳关系知识（Inducing Relational Knowledge from BERT），法阿尔图瓦大学副教授Zied Bouraoui、卡迪夫大学讲师Jose Camacho-Collados

专知会员服务

29+阅读 · 2019年12月5日

【CCL 2019】韩旭：知识表示与获取——博士生涯中的大体系与小合作

专知会员服务

41+阅读 · 2019年11月12日

【清华大学博士论文】大规模结构化知识的表示学习、自动获取与计算应用，林衍凯

专知会员服务

136+阅读 · 2019年11月7日

【博士论文】自然语言处理的神经图嵌入方法，Neural Graph Embedding methods for Natural Language Processing

专知会员服务

80+阅读 · 2019年11月5日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知会员服务

145+阅读 · 2019年10月18日

【上海交大】半监督学习理论及其研究进展概述

专知会员服务

71+阅读 · 2019年10月18日

知识图谱从哪里来：实体关系抽取的现状与未来

PaperWeekly

6+阅读 · 2019年11月23日

【清华大学】知识图谱从哪里来：实体关系抽取的现状与未来

专知

26+阅读 · 2019年11月17日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

DSGAN：使用生成式对抗网络进行远距离监督关系抽取

微信AI

98+阅读 · 2018年12月28日

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

黑龙江大学自然语言处理实验室

15+阅读 · 2018年12月10日

已删除

将门创投

5+阅读 · 2018年11月27日

SFFAI报名通知 | 神经机器翻译 & 关系抽取

人工智能前沿讲习班

9+阅读 · 2018年10月25日

大讲堂 | 神经关系抽取模型

AI研习社

24+阅读 · 2018年9月11日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

论文浅尝 | Distant Supervision for Relation Extraction

开放知识图谱

4+阅读 · 2017年12月25日

Unifying Graph Convolutional Neural Networks and Label Propagation

Arxiv

31+阅读 · 2020年2月17日

Semi-Supervised Graph Embedding for Multi-Label Graph Node Classification

Arxiv

5+阅读 · 2019年7月12日

Generative Adversarial Networks: A Survey and Taxonomy

Arxiv

14+阅读 · 2019年6月4日

Deep Generative Classifiers for Thoracic Disease Diagnosis with Chest X-ray Images

Arxiv

3+阅读 · 2018年11月8日

DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction

Arxiv

15+阅读 · 2018年5月24日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

KBGAN: Adversarial Learning for Knowledge Graph Embeddings

Arxiv

6+阅读 · 2018年2月20日

Knowledge Graph Embedding with Multiple Relation Projections

Arxiv

4+阅读 · 2018年1月26日

Natural Language Guided Visual Relationship Detection

Arxiv

3+阅读 · 2017年11月21日

VIP会员

总结 | 清华大学韩旭：神经关系抽取模型

相关内容

知识荟萃

更多