Question answering (QA) systems for large document collections typically use pipelines that (i) retrieve possibly relevant documents, (ii) re-rank them, (iii) rank paragraphs or other snippets of the top-ranked documents, and (iv) select spans of the top-ranked snippets as exact answers. Pipelines are conceptually simple, but errors propagate from one component to the next, without later components being able to revise earlier decisions. We present an architecture for joint document and snippet ranking, the two middle stages, which leverages the intuition that relevant documents have good snippets and good snippets come from relevant documents. The architecture is general and can be used with any neural text relevance ranker. We experiment with two main instantiations of the architecture, based on POSIT-DRMM (PDRMM) and a BERT-based ranker. Experiments on biomedical data from BIOASQ show that our joint models vastly outperform the pipelines in snippet retrieval, the main goal for QA, with fewer trainable parameters, also remaining competitive in document retrieval. Furthermore, our joint PDRMM-based model is competitive with BERT-based models, despite using orders of magnitude fewer parameters. These claims are also supported by human evaluation on two test batches of BIOASQ. To test our key findings on another dataset, we modified the Natural Questions dataset so that it can also be used for document and snippet retrieval. Our joint PDRMM-based model again outperforms the corresponding pipeline in snippet retrieval on the modified Natural Questions dataset, even though it performs worse than the pipeline in document retrieval. We make our code and the modified Natural Questions dataset publicly available.


翻译:用于大型文件收集的问答系统通常使用管道:(一) 检索可能相关的文件,(二) 重新排序,(三) 将上层文档的中段或其他片段排位,(四) 选择最上层片段的跨度,作为准确的答案。管道在概念上简单,但错误从一个部分传播到下一个部分,但随后各部分无法修改先前的决定。我们展示了一个联合文件和片段排位的架构,即两个中间阶段,利用相关文件具有良好片段和好片段的直觉,(二) 重新排位,(三) 将最上层文档的中段或其他片段排位排位,(三) 排位阶,(四) 排位阶段,(四) 排位阶段,(四) 以POSIT-DRMMM(PDRMM)(PDRMM)(PD)和以BERT为主列的排位。关于生物数据数据的实验显示,我们的联合模型已大大超越了管道的管道检索, QA的主要目标,(比可保持在文件检索中) QA 。此外,尽管我们使用了比数测试中,但我们的比重数据要求,但测试了我们的数据比重数据比重数据比重数据比重数据,我们的数据比比重在另一个的比重数据,我们更小。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
76+阅读 · 2020年2月3日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG
开放知识图谱
6+阅读 · 2018年10月30日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
论文浅尝 | CFO: Conditional Focused Neural Question Answering
开放知识图谱
6+阅读 · 2017年12月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
3+阅读 · 2019年8月19日
VIP会员
Top
微信扫码咨询专知VIP会员