论文浅尝 | 基于异质图交互模型进行篇章级事件抽取

2021 年 9 月 26 日 开放知识图谱

笔记整理:娄东方,浙江大学 & 恒生电子股份有限公司博士后,研究方向为事件抽取

来源:ACL2021

链接:https://arxiv.org/abs/2105.14924

GitHub项目地址:https://github.com/RunxinXu/GIT

本文关注篇章事件抽取——建模篇章信息,从中发现事件,并抽取事件各角色对应属性。现有方法主要关注句子事件抽取(假设事件属性分布在同一句内/较小文本片段内),它们无法适用于事件属性分散在篇章中多个句子的情形。如下图所示,

篇章事件抽取问题的挑战包括事件属性分散(EO事件中,“Xiaoting Wu”出现在句子3和句子4中,“Nov 6, 2014”则出现在句子1和句子2中)和多事件(关联性事件“股票增持”和“股票减持”)。现有方法DCFEE、Doc2EDAG等一般独立地抽取事件,忽略它们之间内在关联性。

本文提出的Graph-based Interaction Model with a Tracker (GIT)方法基于异质图网络完成篇章内句子、实体提及之间的交互,并引入tracker跟踪预测事件记录以及role对应抽取记录。试验证明它能增强实现篇章理解和事件关联建模。

Motivation

针对篇章级事件抽取问题面临的两个挑战,作者分别设计相应模块予以解决。

1.同一事件属性分散在篇章不同句子,需要对篇章信息充分理解。考虑构建句子和实体提及的异质图,将实体之间、句子之间、实体与句子之间的信息建模起来,并应用GNN网络进行编码,增强实体提及和句子向量表示,篇章理解更细致;2.建模事件之间的依赖性。考虑将当前篇章中已抽取的事件记录用memory存储下来,在预测当前事件角色对应属性过程中将memory中的信息考虑进来,从而使得事件关联信息被捕捉到。

Model

上图所示为本文提出GIT事件抽取框架。主要包括如下模块:

1.句子编码:将篇章的所有句子进行独立编码,模型为Transformer结构;

2.实体提及预测:基于句子编码结果(每个token表示) + CRF解码得到每个句子的实体提及预测结果;

3.构建异质图:

节点:句子、候选实体提及(上一步的结果);

    •边:句-句关系(全连接)、句内属性之间关系(句内属性全连接)、属性-句关系(属性与所在句相连)、跨句同名属性关系(篇章同名属性全连接)

4.GNN编码器:输出所有句子和实体提及对应的向量表示,它们已捕捉到全篇章信息;

5.事件类型发现:基于多头机制将所有句子信息整合起来,获取每个事件类型对应的向量表示,

并采用多标签分类方式学习事件类型,对应损失函数为,

6.多事件属性抽取。如图所示,抽取步骤及原则如下,

按照给定事件类型逐个抽取事件(例如,先抽EquityFreeze类型,再抽EquityPledge类型),按照给定角色顺序逐个抽取属性(在EquityFreeze类型的事件中,角色抽取顺序为EquityHolder、FrozeShares、StartDate…)构建tracker实时记录当前抽取情况,存入memory,并在当前角色的属性预测过程中将memory中的信息考虑进来。具体而言,当前角色属性抽取考虑的因素包括

   : 实体候选(融合角色信息),   

   : 每个句子的向量表示;

   : 第i个事件记录属性序列,记录属性向量表示   

   : memory中已完成、未完成事件记录的LSTM编码结果。

基于Transformer更新候选实体在当前角色下的向量表示,

基于更新之后的候选实体表示  E ̃  进行二分类,确定每个实体是否能成为当前“事件+角色”对应的属性。属性抽取对应的损失函数为

最终总损失包括:实体提及损失、事件类型发现损失和属性抽取损失之和。

Experiment

实验在中文金融事件抽取数据ChFinAnn上进行,结果表明GIT方法在该数据上达到SOTA;在单事件和多事件情况下表现都能显著提升,基于GNN的异质图编码对文档理解充分、基于tracker的事件关联建模能增强多事件表现等。

 


 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
0

相关内容

事件抽取指的是从非结构化文本中抽取事件信息,并将其以结构化形式呈现出来的任务。例如从“毛泽东1893 年出生于湖南湘潭”这句话中抽取事件{类型:出生,人物:毛泽东,时间:1893 年,出生地:湖南湘潭}。 事件抽取任务通常包含事件类型识别和事件元素填充两个子任务。
WWW 2022 :基于纯MLP架构的序列推荐模型
专知会员服务
14+阅读 · 2022年3月20日
WSDM'22「京东」个性化会话推荐:异构全局图神经网络
专知会员服务
22+阅读 · 2022年1月7日
TKDE2021 | 基于对抗解耦器的异质网络嵌入
专知会员服务
7+阅读 · 2021年8月27日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
49+阅读 · 2021年8月13日
专知会员服务
20+阅读 · 2021年7月19日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
39+阅读 · 2020年9月7日
论文浅尝 | KGNLI: 知识图谱增强的自然语言推理模型
开放知识图谱
0+阅读 · 2022年1月28日
论文浅尝 - ACL2021 | 探讨跨句事件联合抽取问题
开放知识图谱
0+阅读 · 2021年7月19日
论文浅尝 | 面向时序知识图谱推理的循环事件网络
开放知识图谱
76+阅读 · 2019年9月22日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
论文浅尝 | 使用循环神经网络的联合事件抽取
开放知识图谱
25+阅读 · 2019年4月28日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
VIP会员
相关VIP内容
WWW 2022 :基于纯MLP架构的序列推荐模型
专知会员服务
14+阅读 · 2022年3月20日
WSDM'22「京东」个性化会话推荐:异构全局图神经网络
专知会员服务
22+阅读 · 2022年1月7日
TKDE2021 | 基于对抗解耦器的异质网络嵌入
专知会员服务
7+阅读 · 2021年8月27日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
49+阅读 · 2021年8月13日
专知会员服务
20+阅读 · 2021年7月19日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
39+阅读 · 2020年9月7日
相关资讯
论文浅尝 | KGNLI: 知识图谱增强的自然语言推理模型
开放知识图谱
0+阅读 · 2022年1月28日
论文浅尝 - ACL2021 | 探讨跨句事件联合抽取问题
开放知识图谱
0+阅读 · 2021年7月19日
论文浅尝 | 面向时序知识图谱推理的循环事件网络
开放知识图谱
76+阅读 · 2019年9月22日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
论文浅尝 | 使用循环神经网络的联合事件抽取
开放知识图谱
25+阅读 · 2019年4月28日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员