While diverse question answering (QA) datasets have been proposed and contributed significantly to the development of deep learning models for QA tasks, the existing datasets fall short in two aspects. First, we lack QA datasets covering complex questions that involve answers as well as the reasoning processes to get the answers. As a result, the state-of-the-art QA research on numerical reasoning still focuses on simple calculations and does not provide the mathematical expressions or evidences justifying the answers. Second, the QA community has contributed much effort to improving the interpretability of QA models. However, these models fail to explicitly show the reasoning process, such as the evidence order for reasoning and the interactions between different pieces of evidence. To address the above shortcomings, we introduce NOAHQA, a conversational and bilingual QA dataset with questions requiring numerical reasoning with compound mathematical expressions. With NOAHQA, we develop an interpretable reasoning graph as well as the appropriate evaluation metric to measure the answer quality. We evaluate the state-of-the-art QA models trained using existing QA datasets on NOAHQA and show that the best among them can only achieve 55.5 exact match scores, while the human performance is 89.7. We also present a new QA model for generating a reasoning graph where the reasoning graph metric still has a large gap compared with that of humans, e.g., 28 scores.


翻译:虽然提出了不同的回答问题(QA)数据集,并大大促进了为QA任务开发深层次学习模型,但现有数据集在两个方面都存在缺陷。首先,我们缺乏包含复杂问题的质量保证数据集,涉及答案以及获取答案的推理过程。因此,关于数字推理的先进QA研究仍然侧重于简单的计算,没有提供答案的数学表达方式或证据。第二,QA社区为改进QA模型的可解释性作出了很大贡献。然而,这些模型未能明确显示推理过程,例如推理的证据顺序和不同证据之间相互作用。为了解决上述缺陷,我们引入NOAHQA,即一个谈话和双语的质量保证数据集,需要数字推理和复合数学表达的问题。与NOAQAQA一道,我们开发了一个可解释的推理图表,以及用来衡量答案质量的适当评价尺度。我们评估了利用现有QA数据集所培训的高质量QA模型,但是,这些模型未能明确显示推理,而我们又能够比对 NOAQA 5 图表作出最佳的推理。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
25+阅读 · 2021年4月2日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
34+阅读 · 2020年9月3日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
24+阅读 · 2019年10月18日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
已删除
将门创投
3+阅读 · 2019年1月8日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
3+阅读 · 2017年12月23日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
Top
微信扫码咨询专知VIP会员