SQuAD2.0来了！现在这里有了机器「无法回答的问题」

2018 年 6 月 14 日 AI研习社

AI 研习社论按：斯坦福大学 NLP 组（Stanford NLP Group）昨晚发出公告，文本理解挑战赛 & 数据集 SQuAD 升级为 SQuAD 2.0，在原来基础上增加对抗性问题的同时，也新增了一项任务「判断一个问题能否根据提供的阅读文本作答」。新版本 SQuAD 2.0 由斯坦福大学计算机系 Pranav Rajpurkar, Robin Jia, Percy Liang 三人在获得 ACL 2018 最佳论文奖的论文《Know What You Don't Know: Unanswerable Questions for SQuAD》（https://arxiv.org/abs/1806.03822）中提出。SQuAD 页面的主题色也从玫红色更换为了蓝紫色。

基于 SQuAD（ Stanford Question Answering Dataset）的文本理解挑战赛，是行业内公认的机器阅读理解领域的顶级水平测试；它构建了一个包含十万个问题的大规模机器阅读理解数据集，选取超过 500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本 —— 以及，现在在 SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答。

在原来的 SQuAD（SQuAD 1.1）的十万个问题 - 答案对的基础上，SQuAD 2.0 中新增了超过五万个新增的、由人类众包者对抗性地设计的无法回答的问题。执行 SQuAD 2.0 阅读理解任务的模型不仅要能够在问题可回答时给出答案，还要判断哪些问题是阅读文本中没有材料支持的，并拒绝回答这些问题。

图示为两个无法回答的问题。红色标出的答案看似有理，但其实是错误的。

Pranav Rajpurkar, Robin Jia, Percy Liang 三人撰写了论文《Know What You Don't Know: Unanswerable Questions for SQuAD》对这一新任务以及 SQuAD 2.0 做了介绍。论文中为 SQuAD 2.0 设立了新的人类表现基准线（EM 86.831，F1 89.452）的同时，也通过对比展现出了 SQuAD 2.0 的难度：一个强有力的基于神经网络的系统可以在 SQuAD 1.1 上得到 86% 的 F1 分数，但在 SQuAD 2.0 上只能得到 66%。

这篇论文也获得了 ACL 2018 最佳论文奖。其它四篇最佳论文为：

1、Finding syntax in human encephalography with beam search

用束搜索在人脑成像中寻找句法
论文摘要：循环神经网络文法（RNNGs）是对于「树-字符串」对的生成式模型，它们依靠神经网络来评价派生的选择。用束搜索对它们进行解析可以得到各种不同复杂度的评价指标，比如单词惊异数（word surprisal count）和解析器动作数（parser action count）。当把它们用作回归因子，解析人类大脑成像图像中对于自然语言文本的电生理学响应时，它们可以带来两个增幅效果：一个早期的峰值以及一个类似 P600 的稍迟的峰值。相比之下，一个不具有句法结构的神经语言模型无法达到任何可靠的增幅效果。通过对不同模型的对比，早期峰值的出现可以归功于 RNNG 中的句法组合。结果中体现出的这种模式表明 RNNG+束搜索的组合可以作为正常人类语言处理中的语法处理的一个不错的机理解释模型。
论文地址：
https://arxiv.org/abs/1806.04127
论文四位作者中的三位来自 DeepMind，另一位来自密歇根大学文学、科学与艺术学院计算神经语言学实验室

2、Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

学习如何问好的问题：通过完全信息下的期待值为追问问题排序
论文摘要：在沟通中，提问是一大基本要素：如果机器不知道如何问问题，那它们也就无法高效地与人类合作。在这项研究中，作者们构建了一个神经网络用于给追问的问题做排名。作者们模型设计的启发来源于完全信息情况下的期待值：一个可以期待获得有用的答案的问题就是一个好问题。作者们根据 StackExchange 上抓取的数据研究了这个问题；StackExchange 是一个内容丰富的在线咨询平台，其中有人发帖咨询以后，别的用户会在下面追问起到解释澄清作用的问题，以便更好地了解状况、帮助到发帖人。论文作者们创建了一个由这样的追问问题组成的数据集，其中包含了 StackExchange 上 askubuntu、unix、superuser 这三个领域的约 77k 组发帖+追问问题+问题的回答。作者们在其中的 500 组样本上评估了自己的模型，相比其他基准模型有显著的提高；同时他们也与人类专家的判断进行了对比。
论文地址：
https://arxiv.org/abs/1805.04655
论文作者来自马里兰大学与微软研究院

3、Let's do it "again": A First Computational Approach to Detecting Adverbial Presupposition Triggers

让我们「再」做一次：首个检测假定状态触发副词的计算性方法
论文摘要：这篇论文中，作者们介绍了一种新的研究课题——预测副词词性的假定状态触发语（adverbial presupposition triggers），比如「also」和「again」。完成这样的任务需要在对话上下文里寻找重复出现的或者相似的内容；这项任务的研究成果则可以在文本总结或者对话系统这样的自然语言生成任务中起到帮助。作者们为这项任务创造了两个新的数据集，分别由 Penn Treebank 和 AnnotatedEnglish Gigaword 生成，而且也专为这项任务设计了一种新的注意力机制。作者们设计的注意力机制无需额外的可训练网络参数就可以增强基准 RNN 模型的表现，这最小化了这一注意力机制带来的额外计算开销。作者们在文中表明，他们的模型相比多个基准模型都有统计显著的更高表现，其中包括基于 LSTM 的语言模型。
论文地址：
https://www.cs.mcgill.ca/~jkabba/acl2018paper.pdf
这篇论文来自加拿大麦克吉尔大学（McGill University）与蒙特利尔算法学习人工智能实验室（MILA）

4、'Lighter' Can Still Be Dark: Modeling Comparative Color Descriptions