赛尔笔记 | 事件间因果关系方向数据调研

2020 年 12 月 4 日 深度学习自然语言处理

作者:哈工大SCIR 张跃威

1.摘要

本文介绍事件间因果关系方向数据,此类任务通过关注两个实体间的语义关系,可以得到包含语义关系的实体关系三元组。事件间因果关系语料通常作为因果事件抽取、因果推断等任务的基础,允许使用规则、机器学习、深度学习等方法对事件链进行分析。

2.事件间因果关系方向数据集

2007* SemEval-2007 Task 04: Classification of Semantic Relations between Nominals[1] 此任务是对除命名实体以外的简单名词之间的语义关系进行分类,该数据集中共包含因果关系在内的七种词间关系,其中每种关系包含210条数据。例如:laugh(大笑)与wrinkles(皱纹)即存在因果关系。

2008* The Penn Discourse Treebank 2.0(PDTB-2.0)[2] PDTB是语言资源联盟(LDC)于2008年发布的,由美国宾夕法尼亚大学、意大利托里诺大学和英国爱丁堡大学联合标注。其对华尔街日报的2159篇文章借鉴篇章词汇化树型连接语法(D-LTAG)理论和RST思想,标注了40600个显式、隐式、替代词汇化(AltLex)、 基于实体一致性关系(EntRel)和没有关系(NoRel)这5大类型的篇章关系。同时PDTB对篇章关系定义了一个3级层次的sense结构用于语义关系分类:其中,第1层包括4种最常见的语义:Temporal, Contingency, Comparison和Expansion。第2层包括16类语义,第3层包括23类语义。其中,因果被记为contingency relationship的子类。例如:In addition, its machines are typically easier to operate, so customers require less assistance from software. (CONTINGENCY: Cause: result)

图1 PDTB中的事件关系分类

2008* Building a Corpus of Temporal-Causal Structure[3] 该工作来自科罗拉多大学博尔德分校,注重于刻画事件间的因果关系与时序关系。作者标注了1000对由[and]连接的事件。例如:Fuel tanks had [EVENT leaked] and [EVENT contaminated] the soil.

2010* SemEval-2010 task 8[4] 相似于SemEval-2007 Task 04,该任务集中于名词对之间的语义关系,共包含九类语义关系共10717例数据。例如:这些癌症是由辐射照射引起的。各部分关系分布比例如下图。

图2 SemEval-2010 task 8事件关系类型分布

2014* Causal-TimeBank[5] 实现了一种基于规则的算法来自动识别TempEval-3语料库中的显式因果关系。该工作对因果关系中涉及的事件的注释包括极性(polarity)属性;此外还定义了事实性(factuality)和确定性(certainty)事件属性,这些属性有助于推断事件之间实际因果关系的信息。较为遗憾的是此数据集较小,仅包含300条左右。例如:DrinkingS may cause memory lossT,其中maybe表示不确定性。

2016* AltLex[ACL2016][6] 利用PDTB和Wikipedia语料,使用distant supervision demonstrates方法,提出了一种自动构建因果标注集的方法。其中共有4595句具有因果关系,39645句没有因果关系。但其适用范围狭窄:没有标注因果实体,例如:I was late because of traffic。

2016* CaTeRS[7] 该工作介绍了一种新的语义注释框架,称为Causal and Temporal Relation Scheme。通过在来自ROC Story语料库的320个五句短篇小说中注释总共1600个句子,共捕捉了2708个事件实体和2715个语义关系,包括13种不同类型的因果关系和时间关系。例如:Harry [fell]e1 and [skinned]e2 his knee。

2011* CEC (Chinese event causality)[8] 是目前唯一公开的中文因果关系数据集。该工作共有200篇文章和340套因果关系。其具有广泛的因果关系,包括多重、明确、句子间、跨句、跨段因果关系、嵌入因果关系和交叉因果关系。下图为文章中一个包含因果关系的时间序列的例子。
图3 CEC时序事件实例

2014* Richer Event Descriptions[9] 此工作介绍了Richer事件描述语料库的注释方法,在THYME病例语料上进行丰富标注,对该语料库的实体、事件、时间、它们的共指关系和部分共指关系以及事件之间的时间、因果和子事件关系进行了注释。

2017* BECauSE Corpus 2.0[ACL 2017][10] 此工作基于BECauSE1.0,它将因果理解为“呈现一个事件、状态、动作或实体以促进或阻碍另一个事件、状态、动作或实体的任何结构,并至少包括一个词汇触发器”。共包含2386条样本,形式例如:We are in serious economic trouble because of INADEQUATE REGULATION.(因果结构为粗体、原因为大写、结果为斜体)。

2017* ESC[11] 此工作提出的ESCv0.9,是StoryLine Extraction task的第一个基准。同时提出了3个baseline系统来完成任务。这项任务的目标和以往的时序、因果关系抽取不同。相比时序任务,StoryLine Extraction task只考虑和同一故事相关的事件。相比于因果任务,StoryLine Extraction task比因果更加宽泛,包含了因果关系。该任务对叙事模型的建立很有帮助,叙事模型允许我们对新闻中的常见叙事结果进行学习。同时该任务提出的共指事件关系也为多文档摘要系统提供帮助。事件间关系被标注为rising action(间接导致、导致或导致另一事件的事件)和falling action(推测和后果)中的一种,例如:

图4 ESC的事件间关系实例

2019* SCIFI[12] 通过修订和扩展SemEval 2010 task 8提出的因果数据集。针对SemEval的缺陷和不足,SCIFI将一因一果扩展到多重因果关系、词与短语等。数据集以xml标记的形式呈现因果关系,并在数据集中给出因果实体对。有1270句具有因果关系,3966句没有因果关系。例如:

图5 SCIFI的因果关系实例

3.因果关系抽取

3.1基于模式匹配的因果关系抽取

早期研究根据因果句的结构特征,提取具有固定模式和标记的显性因果关系,包括Garcia[13]Khoo[14]Girju[15]

图6 部分用于匹配的模板

3.2基于关系分类的因果关系抽取

此类方法通过判断句子中的实体对是否具有指定的关系,从而转化为一个二分类问题。基于关系分类的因果关系抽取是确定文本中给出的因果对是否具有因果关系,适用于提取因果实体的句子。此类方法代表有Zhao[16]提出Restricted Hidden Native Bayes Model的提取因果关系;Feng[17]将带注意力机制的双向门控循环单元神经网络(Bidirectional gated recurrent units networks,BGRU)与对抗学习相融合,进而从因果关系解释信息中获得高区分度的特征等。

3.3基于序列标注的因果关系抽取

基于序列标注的因果关系抽取则将因果抽取问题转化为序列标签,即为句子中的每个单词标记因果标签,从而提取因果实体,确定因果关系的方向。此类方法代表有CRF[8]L-BiLSTM[18]等。

图7 用于因果关系抽取的双向LSTM体系结构

4.总结

事件间因果关系仍是一个崭新的研究领域,缺乏足够权威的数据集以及标注方法。本文梳理了部分因果关系方向数据集,以及部分因果关系抽取方法,为以后的工作提供了思路。

参考资料

[1]

Girju R, Nakov P, Nastase V, et al. Semeval-2007 task 04: Classification of semantic relations between nominals[C]//Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007: 13-18.

[2]

Prasad R, Dinesh N, Lee A, et al. The Penn Discourse TreeBank 2.0[C]//LREC. 2008.

[3]

Bethard S , Corvey W , Klingenstein S , et al. Building a corpus of temporal-causal structure[C]// Proceedings of the International Conference on Language Resources and Evaluation, LREC 2008, 26 May - 1 June 2008, Marrakech, Morocco. DBLP, 2008.

[4]

Hendrickx I, Kim S N, Kozareva Z, et al. Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals[C]//Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions. Association for Computational Linguistics, 2009: 94-99.

[5]

Mirza P, Sprugnoli R, Tonelli S, et al. Annotating causality in the TempEval-3 corpus[C]//EACL 2014 Workshop on Computational Approaches to Causality in Language (CAtoCL). Association for Computational Linguistics, 2014: 10-19.

[6]

Hidey C, McKeown K. Identifying causal relations using parallel Wikipedia articles[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016: 1424-1433. ACL 2016.

[7]

Mostafazadeh N, Grealish A, Chambers N, et al. CaTeRS: Causal and temporal relation scheme for semantic annotation of event structures[C]//Proceedings of the Fourth Workshop on Events. 2016: 51-61.

[8]

Jian-Feng F U, Zong-Tian L I U, Wei L, et al (2011) Event causal relation extraction based on cascaded conditional random fields. Pattern Recognition and Artificial Intelligence, 2011, 24(4): 567-573.

[9]

O’Gorman T, Wright-Bettner K, Palmer M. Richer Event Description: Integrating event coreference with temporal, causal and bridging annotation[C]//Proceedings of the 2nd Workshop on Computing News Storylines (CNS 2016). 2016: 47-56. CNS 2016.

[10]

Dunietz J , Levin L , Carbonell J . The BECauSE Corpus 2.0: Annotating Causality and Overlapping Relations[C]// Proceedings of the 11th Linguistic Annotation Workshop. 2017.

[11]

Caselli T , Vossen P . The Event StoryLine Corpus: A New Benchmark for Causal and Temporal Relation Extraction[C]// Proceedings of the Events and Stories in the News Workshop. 2017.

[12]

Li Z, Li Q, Zou X et al (2019) Causality Extraction based on Self-Attentive BiLSTMCRF with Transferred Embeddings, arXiv preprint arXiv:1904.07629.

[13]

Garcia D (1997) COATIS, an NLP system to locate expressions of actions connected by causality links. In Proc of the 10th European Workshop on Knowledge Acquisition, Modeling and Management, LNCS 347-352.

[14]

Khoo C S G, Kornfilt J, Oddy R N et al (1998) Automatic extraction of cause-effect information from newspaper text without knowledge-based inferencing. Literary and Linguistic Computing, 13(4): 177-186.

[15]

Girju R (2003) Automatic Detection of Causal Relations for Question Answering. In: Proceedings of the 41st ACL Workshop on Multilingual Summarization and Question Answering, ACL, pp76-83. ACL 2003.

[16]

Zhao S, Liu T, Zhao S et al (2016) Event causality extraction based on connectives analysis. Neurocomputing, 173(P3):1943-1950.

[17]

Feng C, Kang L, Se Ge et al(2018) Causality Extraction With GAN. Acta Auto-matica Sinica, 44(5): 811-818.

[18]

Dasgupta T,Saha R,Dey L et al (2018) Automatic Extraction of Causal Relations from Text using Linguistically Informed Deep Neural Networks. In: Proc of the 19th Annual SIGdial Meeting on Discourse and Dialoguem, ACL, pp306-316. ACL 2018.

本期责任编辑:李忠阳
本期编辑:朱文轩


  
  
    
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!
后台回复【五件套


下载二:南大模式识别PPT
后台回复南大模式识别



说个正事哈



由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注呦


推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记
专辑 | NLP论文解读
专辑 | 情感分析

整理不易,还望给个在看!

登录查看更多
6

相关内容

专知会员服务
31+阅读 · 2020年9月2日
科技大数据知识图谱构建方法及应用研究综述
专知会员服务
133+阅读 · 2020年8月12日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
187+阅读 · 2020年1月17日
赛尔笔记 | 自然语言处理中的迁移学习(下)
AI科技评论
11+阅读 · 2019年10月21日
赛尔原创 | EMNLP 2019 常识信息增强的事件表示学习
哈工大SCIR
28+阅读 · 2019年9月12日
赛尔笔记 | 一文读懂图神经网络
哈工大SCIR
81+阅读 · 2019年7月12日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
33+阅读 · 2019年6月23日
赛尔笔记 | 多人对话语篇解析简介
哈工大SCIR
8+阅读 · 2019年3月2日
NSR观点| 学习因果关系和基于因果性的学习
知社学术圈
17+阅读 · 2018年1月7日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
专知会员服务
31+阅读 · 2020年9月2日
科技大数据知识图谱构建方法及应用研究综述
专知会员服务
133+阅读 · 2020年8月12日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
187+阅读 · 2020年1月17日
相关资讯
赛尔笔记 | 自然语言处理中的迁移学习(下)
AI科技评论
11+阅读 · 2019年10月21日
赛尔原创 | EMNLP 2019 常识信息增强的事件表示学习
哈工大SCIR
28+阅读 · 2019年9月12日
赛尔笔记 | 一文读懂图神经网络
哈工大SCIR
81+阅读 · 2019年7月12日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
33+阅读 · 2019年6月23日
赛尔笔记 | 多人对话语篇解析简介
哈工大SCIR
8+阅读 · 2019年3月2日
NSR观点| 学习因果关系和基于因果性的学习
知社学术圈
17+阅读 · 2018年1月7日
Top
微信扫码咨询专知VIP会员