基于位置注意力机制模型和带标签数据来提升槽填充(EMNLP outstanding paper)

2017 年 11 月 17 日 科技创新与创业 尹伊淳

基于位置注意力机制模型和带标签数据来提升槽填充(EMNLP outstanding paper)

Yuhao Zhang, Victor Zhong, Danqi Chen, Gabor Angeli, Christopher D. Manning

Stanford University, Outstanding paper in EMNLP2017

论文:http://www.aclweb.org/anthology/D/D17/D17-1004.pdf


摘要

自动从自由文本中抽取知识三元组,丰富知识图谱一直以来是NLP领域非常困难的任务。本文从两个方面来推动这个领域的发展(1)提出一个基于位置的attention模型,增强关系抽取模块的性能;(2)通过crowdsourcing建立一个标注TACRED带标签的关系抽取数据,此数据集相比之前数据在数据量和数据全面性上都有了很大的提升。

模型

(1)position-aware attention mechanism,考虑每个词与三元组中Subject和Object中的相对位置,将每个相对位置数值用向量表征,连同词向量作为词表征。使用LSTM模型获得每个词的hidden vectors,然后让最后时刻的hidden vector作为attention中的summary vector对各个时刻hidden vectors做attend操作得到最终的Subject/Object/Relation的表征向量。使用表征向量训练和预测。

(2)the TAC relation extraction dataset,收集了TAC KBP(2009-2015)年的数据集,挑选了100个实体作为queries,在给定的句子中寻找出现在实体集合中的实体,然后对关系和相对应的实体进行标注;同时对错误的正例数据进行过滤。最终得到了119474个三元组。

实验

设置:

(1)在TACRED数据上评测模型效果;

(2)利用TACRED数据上进行训练,在TAC KBP2015 cold start slot filling 任务上去评测。

基准模型:

(1)TAC KBP 2015 winning system,主要由基于模式抽取和logistic regression分类器两部分集成;

(2)CNN-PE,带有位置表征的卷积神经网络;

(3)基于依存关系的循环神经网络。

实现细节(亮点之处):

(1)word dropout,以一定的概率p把的embedding赋值给token,其中p=0.04~0.06;

(2)entity masking,分别将句中subject实体替换成-Subj和object实体替换成-Obj。

结果:

(1)TACRED评测,所有神经网络的方法好于基于模式抽取和logistic regression方法,本文提出的模型比最好的baseline在F1上提升4个点;

(2)TAC KBP Slot Filling,该任务目的在于给定一个实体,给定一个关系要求填充对应实体。将本文的关系判定模型放入系统,系统效果从22.2提升到26.7。

思考

一个工作价值很大程度上取决于是否能对现在存在的重要问题有推动作用,这篇论文很好的诠释这一点。

整体的模型效果还处于一个很低的水平,数据还是populate knowledge graph中最大的瓶颈,如何更好地标注和创建数据依然是突破点。


登录查看更多
17

相关内容

自然语言处理顶级会议
基于深度学习的多标签生成研究进展
专知会员服务
140+阅读 · 2020年4月25日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
58+阅读 · 2020年1月10日
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
基于图卷积文本模型的跨模态信息检索
专知
9+阅读 · 2019年8月3日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
COLING 2018 最佳论文解读:序列标注经典模型复现
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
13+阅读 · 2018年4月18日
VIP会员
相关VIP内容
基于深度学习的多标签生成研究进展
专知会员服务
140+阅读 · 2020年4月25日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
58+阅读 · 2020年1月10日
相关资讯
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
基于图卷积文本模型的跨模态信息检索
专知
9+阅读 · 2019年8月3日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
COLING 2018 最佳论文解读:序列标注经典模型复现
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
Top
微信扫码咨询专知VIP会员