自然问题：针对问答研究的新型语料库和挑战赛

2019 年 2 月 15 日 谷歌开发者

文 / Tom Kwiatkowski 和 Michael Collins，Google AI 语言团队研究员

开放域问答 (QA) 是自然语言理解 (NLU) 中的一项基准任务，旨在模拟人类查找信息的方法，并通过阅读和理解整个文档来寻找问题的答案。若给定一个用自然语言表达的问题（“天空为什么是蓝色的？”），QA 系统应该能够查阅网页（例如维基百科页面）并返回正确答案，即使答案有些复杂和冗长也会如此。然而，目前还没有大型且公开可用的自然发生问题（即查找信息的用户提出的问题）来源和能够用于训练和评估 QA 模型的答案。这是因为构建高质量的问答数据集需要庞大的真实问题来源，并且需要大量人力来寻找正确答案。

为助推 QA 领域的研究进展，我们很高兴地宣布推出自然问题 (NQ)，这是一个用于训练和评估开放域问答系统的新型大规模语料库，也是首个能够复制人类查找问题答案这一端到端流程的语料库。NQ 非常庞大，其中包含 300000 个自然发生的问题以及来自维基百科页面的人工注释答案，可用于训练 QA 系统。我们还额外加入了 16000 个示例，每个示例均由 5 位不同的注释者提供答案（针对相同的问题），这对评估 QA 系统在学习后的性能大有帮助。鉴于回答 NQ 中的问题比回答琐碎问题（计算机可以轻而易举地解决这些问题）需要更深入的理解，我们还发起了一项基于此类数据的挑战赛，以帮助提升计算机的自然语言理解能力。

数据

NQ 是首个使用自然发生的查询创建的数据集，着重于通过阅读整个页面来查找答案，而非从短段落中提取答案。为了创建 NQ，我们从用户发布到 Google 搜索引擎上的真实且经匿名化处理的汇总查询入手。然后，我们要求注释者通过阅读整个维基百科页面来寻找答案，就好像这些问题是由他们提出一样。注释者需同时找到问题的长答案和短答案，其中长答案涵盖推断答案所需的全部信息，而短答案则会使用一个或多个实体名称来简洁地回答问题。我们对 NQ 语料库中的注释质量进行了评估，其准确率高达 90%。

我们在《自然问题：问答研究的基准》(Natural Questions: a Benchmark for Question Answering Research) 一文中对数据收集过程进行了全面阐述，该论文已获准在《计算语言学协会会刊》(Transactions of the Association for Computational Linguistics) 上发表。如需查看该数据集的更多示例，请访问 NQ 网站。

注：NQ 网站链接

https://ai.google.com/research/NaturalQuestions/visualization

挑战赛

NQ 致力于使 QA 系统能够阅读和理解整篇维基百科文章，无论其中是否包含问题答案。系统首先需要确定问题的定义是否充分，是否能够回答，因为许多问题都是在做错误的假设，或者过于模糊而无法简明扼要地回答。然后，系统需要确定维基百科页面中是否包含推断答案所需的全部信息。我们认为，相比于在已知长答案的情况下查找短答案，长答案识别任务（即查找推断答案所需的全部信息）需要更深层次的语言理解。

我们希望 NQ 的发布以及相关挑战赛将有助于推动开发更有效、更强大的 QA 系统。我们鼓励 NLU 社区参与其中，并帮助缩小目前最先进方法的成效与人类上限之间的巨大差距。请访问挑战赛网站查看排行榜并了解详情。

注：挑战赛网站链接

https://ai.google.com/research/NaturalQuestions

更多 AI 相关阅读：