论文浅尝 | TEQUILA: 一种面向时间信息的知识问答方法

2019 年 2 月 17 日 开放知识图谱

来源：CIKM’18

链接：http://delivery.acm.org/10.1145/3270000/3269247/p1807-jia.pdf?ip=223.3.116.39&id=3269247&acc=ACTIVE%20SERVICE&key=BF85BBA5741FDC6E%2EEEBE655830483280%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35&__acm__=1547881906_e38f5a0b3bce785723b910b5c87affd7

本文是发表在CIKM’18的短文，关注有时间信息的复杂知识库问答工作。文章提出使用TimeML(一种时间相关的标注语言)对问题进行标注，在识别时间相关问题后，根据时间特征将复杂问题改写为多个时序相关的子问题，通过与现有的知识问答系统相关联，实现带有时间信息的复杂问答。

动机

与简单问题的处理方式不同，复杂问答一般会将原问题划分为多个子问题，而后合并问题答案。作者发现，复杂问题中一个需要解决的重要问题是时间信息的获取。以下面三个问题为例：

Q1: “Which teams did Neymar play for before joiningPSG?”

Q2: “Under which coaches did Neymar play inBarcelona?”

Q3: “After whom did Neymar’s sister choose her lastname?”

在Q1中，没有明确的日期或者时间被提到，我们可以识别“joining PSG”代表了一个事件，然后通过它转换为一个标准的时间信息。而句子中的“before”则提供了另一个时间相关的线索，但是类似于“before， after”这样的词并不总是在句子中承担这样的角色，比如Q3中的“after”。

在Q2中，我们看不到类似Q1的时间依赖表达，但是“Neymar play in Barcelona”中依然包含了时间信息。

因此可以发现，处理带有时序信息的复杂问题面对的第一个挑战就是：如何从问句中识别时间信息；

随之产生的第二个挑战则是：如何根据时间信息将问题分解为时序相关的子问题；

方法

本文方法的关键过程是：1.分解问题；2.重写子问题

大体的目标如下：

还是以前面的问句为例

Q1: “Which teams did Neymar play for before joiningPSG”

改写得到子问题Q2.1, Q2.2

Q1.1: “Which teams did Neymar play for?”

Q1.2: “When did Neymar join PSG?”

而后在问答过程中，通过Q2.1，从知识库中得到答案及时间范围，再与Q2.2得到的时间相匹配，从而找到Q2的答案。

为了达到上述目的，本文提出一种基于规则的四步框架：

识别包含时间信息的问题
分解问题并重写子问题
获取子问题答案
根据时间证据自合子问题答案

规则设计：

本文构建的规则以TimeML（一种标注语言）为理论基础，用于识别句子及文本中的时间信息。

标签提供了以下信息：

TIMEX3 tag，反映四类时间表达：

SIGNAL tag，反映时间表达标签之间的关系（用于切分子问题）

规则定义：

包含时间信息的问题：即出现了时间信息表达或时间信息关系的问句（标签能在问句中标出内容）

时间关系：Allen(J. F.Allen. 1990. Maintaining knowledge about temporal intervals. In Readings inqualitative reasoning about physical systems. Elsevier)定义了13种时间关系，EQUAL, BEFORE,MEETS, OVERLAPS, DURING, STARTS, FINISHES。

表1列举了子问题重写规则。回答子问题时，对于包含时间信息的子问题需要检索可能的时间范围

实验

本文实验评估基于 TempQuestions benchmark，其中包含1271个时间相关问题，并使用三个目前最好的KBQA系统作为baseline：AQQU [6], QUINT [2] (code from authors for both), and Bao et al. [4]。在实验中，作者将框架与问答系统整合到一起，构成对比模型。

实验结果反映出添加框架的问答系统的提升主要表现为F1与准确率的上升。

总结

本文提出了一种基于时间信息标注的规则型时序复杂问答框架，主要以时间信息的规则标注概念为基础，将复杂问题的切分过程转换为序列标注问题，并对已有人工规则加以利用，构建时序信息间的关系。框架整体比较简明，从规则角度看，还需要做部分深入阅读方能较好理解该方法是否具有较好的泛化性。

论文笔记整理：谭亦鸣，东南大学博士生，研究兴趣：知识问答，自然语言处理，机器翻译

OpenKG.CN

中文开放知识图谱（简称OpenKG.CN）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文，进入 OpenKG 博客。

登录查看更多

相关内容

CIKM

关注 23

信息和知识管理会议（CIKM）为介绍和讨论信息和知识管理的研究以及数据和知识库方面的最新进展提供了一个国际论坛。会议的目的是确定未来知识和信息系统发展所面临的具有挑战性的问题，并通过征求和审查高质量的、应用的和理论的研究成果来确定未来的研究方向。会议的一个重要部分是讲习班计划，它侧重于及时的研究挑战和倡议。官网地址：http://dblp.uni-trier.de/db/conf/cikm/

近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文

专知会员服务

83+阅读 · 2020年6月16日

【2020最新干货综述】基于知识图谱嵌入的链接预测综述， 43页pdf

专知会员服务

165+阅读 · 2020年5月24日

【天津大学】知识图谱划分算法研究综述

专知会员服务

104+阅读 · 2020年4月27日

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知会员服务

161+阅读 · 2020年3月11日