自然问题:针对问答研究的新型语料库和挑战赛

2019 年 2 月 15 日 谷歌开发者

文 / Tom Kwiatkowski 和 Michael Collins,Google AI 语言团队研究员


开放域问答 (QA) 是自然语言理解 (NLU) 中的一项基准任务,旨在模拟人类查找信息的方法,并通过阅读和理解整个文档来寻找问题的答案。若给定一个用自然语言表达的问题(“天空为什么是蓝色的?”),QA 系统应该能够查阅网页(例如维基百科页面)并返回正确答案,即使答案有些复杂和冗长也会如此。然而,目前还没有大型且公开可用的自然发生问题(即查找信息的用户提出的问题)来源和能够用于训练和评估 QA 模型的答案。这是因为构建高质量的问答数据集需要庞大的真实问题来源,并且需要大量人力来寻找正确答案。


为助推 QA 领域的研究进展,我们很高兴地宣布推出自然问题 (NQ),这是一个用于训练和评估开放域问答系统的新型大规模语料库,也是首个能够复制人类查找问题答案这一端到端流程的语料库。NQ 非常庞大,其中包含 300000 个自然发生的问题以及来自维基百科页面的人工注释答案,可用于训练 QA 系统。我们还额外加入了 16000 个示例,每个示例均由 5 位不同的注释者提供答案(针对相同的问题),这对评估 QA 系统在学习后的性能大有帮助。鉴于回答 NQ 中的问题比回答琐碎问题(计算机可以轻而易举地解决这些问题)需要更深入的理解,我们还发起了一项基于此类数据的挑战赛,以帮助提升计算机的自然语言理解能力。



数据

NQ 是首个使用自然发生的查询创建的数据集,着重于通过阅读整个页面来查找答案,而非从短段落中提取答案。为了创建 NQ,我们从用户发布到 Google 搜索引擎上的真实且经匿名化处理的汇总查询入手。然后,我们要求注释者通过阅读整个维基百科页面来寻找答案,就好像这些问题是由他们提出一样。注释者需同时找到问题的长答案和短答案,其中长答案涵盖推断答案所需的全部信息,而短答案则会使用一个或多个实体名称来简洁地回答问题。我们对 NQ 语料库中的注释质量进行了评估,其准确率高达 90%。 



我们在《自然问题:问答研究的基准》(Natural Questions: a Benchmark for Question Answering Research) 一文中对数据收集过程进行了全面阐述,该论文已获准在《计算语言学协会会刊》(Transactions of the Association for Computational Linguistics) 上发表。如需查看该数据集的更多示例,请访问 NQ 网站

注:NQ 网站 链接

https://ai.google.com/research/NaturalQuestions/visualization



挑战赛

NQ 致力于使 QA 系统能够阅读和理解整篇维基百科文章,无论其中是否包含问题答案。系统首先需要确定问题的定义是否充分,是否能够回答,因为许多问题都是在做错误的假设,或者过于模糊而无法简明扼要地回答。然后,系统需要确定维基百科页面中是否包含推断答案所需的全部信息。我们认为,相比于在已知长答案的情况下查找短答案,长答案识别任务(即查找推断答案所需的全部信息)需要更深层次的语言理解。 

我们希望 NQ 的发布以及相关挑战赛将有助于推动开发更有效、更强大的 QA 系统。我们鼓励 NLU 社区参与其中,并帮助缩小目前最先进方法的成效与人类上限之间的巨大差距。请访问 挑战赛网站 查看排行榜并了解详情。

注:挑战赛网站 链接

https://ai.google.com/research/NaturalQuestions



更多 AI 相关阅读:



登录查看更多
0

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答
专知会员服务
82+阅读 · 2019年12月14日
【机器学习课程】机器学习中的常识性问题
专知会员服务
72+阅读 · 2019年12月2日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
谷歌发布问答系统新语料,同时发布相关挑战赛
BERT霸榜问答任务,谷歌新基准模型缩小AI与人类差距50%
未来产业促进会
4+阅读 · 2019年1月31日
SQuAD文本理解挑战赛十大模型解读
PaperWeekly
5+阅读 · 2018年1月13日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年6月1日
VIP会员
Top
微信扫码咨询专知VIP会员