DuReader:真实场景中的中文阅读理解数据集 - 专知

会员服务 ·

0

DuReader:真实场景中的中文阅读理解数据集

2017 年 12 月 5 日 科技创新与创业 尹伊淳

论文：https://arxiv.org/pdf/1711.05073.pdf

代码：https://github.com/baidu/DuReader

数据：http://ai.baidu.com/broad/introduction?dataset=dureader&task=Main

简介

本文面向真实搜索场景的机器阅读问题，构造了一个大规模、开放领域的机器阅读数据集 DuReader。区别于之前的数据集，DuReader有以下几个特点：（1）问题来自于真实搜索场景，答案是用户生成的；（2）有丰富的问题类别；（3）为每个问题提供多个答案。第一版DuReader数据包括200k问题，1000k文档和420k答案，是目前为止最大的中文机器阅读数据。同时本文使用match-LSTM和BiDAF模型来进一步测试和分析数据的特性，实验表明DuReader是一个非常具有挑战性的数据指的进一步的研究。是一个非常具有挑战性的数据指的进一步的研究。是一个非常具有挑战性的数据指的进一步的研究。

搜索中问题类型分析

从百度某天的搜索日志里，取样出1000个问题进行分析。从两个视角对问题进行标注，（1）答案类别，包括Entity，Description和YesNo。Entity问题的答案可以是单个实体或者实体列表；Description问题的答案一般为多个句子的摘要，这类问题包括how/why类型也包括比较两个对象的优缺点；YesNo问题的答案一般为肯定或者否定的回答。（2）答案的主观特性，包括Fact和Opinion。问题类别举例如下表，从百度某天的搜索日志里，取样出1000个问题进行分析。从两个视角对问题进行标注，（1）答案类别，包括Entity，Description和YesNo。Entity问题的答案可以是单个实体或者实体列表；Description问题的答案一般为多个句子的摘要，这类问题包括how/why类型也包括比较两个对象的优缺点；YesNo问题的答案一般为肯定或者否定的回答。（2）答案的主观特性，包括Fact和Opinion。问题类别举例如下表，

数据的收集和标注

为了收集问题，首先随机地从百度搜索引擎选择高频的query logs，通过构造一个二分类器将问题选择出来，最后人工进行正确性检验得到200K问题。本文使用了两个数据源来收集问题相关文档，分别是Baidu Zhidao和Baidu 搜索引擎。将问题进行检索，反馈top-5的相关文档作为结果。在问题类别标注中，标注者首先要求给问题进行Entity，Description和YesNo类别的标注，接着要求标注问题是Fact还是Opinion，问题的类别分布如下

对于答案的标注，本文使用crowdsourcing 的方法基于相关文档来生成答案。如果存在多个答案，标注要求将写下所有的答案。对于YesNo的问题，答案包括了opinion的类别（Yes，No 或者Depend）同时含有支持此观点的句子。

数据的难点：答案是生成的，与文档的匹配度不高。同时问题类别本身具有挑战性。

实验

本文实验分析目前机器理解中的两个典型模型match-LSTM和BiDAF在数据中的表现，来进一步分析数据的特性，衡量指标为BLUE和Rouge实验结果如下：

实验的基准方法直接使用Recall最高的段落作为答案。实验结果表明，现有的机器阅读模型相对比基准实验有了很高的提升，但是相比人类的水准依然差距很大。模型在Zhidao上的表现要好于Search，这说明了基于互联网开放领域的问答是一个难度更大的场景。

登录查看更多

8

相关内容

机器阅读理解

机器阅读理解

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务：让机器像人类一样阅读文本，进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

专知会员服务

17+阅读 · 2020年7月6日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【WWW2020-微软】理解用户行为用于文档推荐

【WWW2020-微软】理解用户行为用于文档推荐

专知会员服务

36+阅读 · 2020年4月5日

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知会员服务

163+阅读 · 2020年3月11日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

WSDM 2020教程《深度贝叶斯数据挖掘》，附257页PPT下载

WSDM 2020教程《深度贝叶斯数据挖掘》，附257页PPT下载

专知会员服务

157+阅读 · 2020年2月7日

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

专知会员服务

113+阅读 · 2019年12月20日

【阿里技术干货】知识结构化在阿里小蜜中的应用

【阿里技术干货】知识结构化在阿里小蜜中的应用

专知会员服务

98+阅读 · 2019年12月14日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

极市平台

24+阅读 · 2019年11月20日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

PaperWeekly

70+阅读 · 2019年1月8日

干货下载 | 中文自然语言处理语料/数据集

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

30+阅读 · 2018年12月27日

【开源】2018中文机器阅读理解竞赛第四名代码开源

【开源】2018中文机器阅读理解竞赛第四名代码开源

专知

55+阅读 · 2018年8月9日

「2018 机器阅读理解技术竞赛」落下帷幕，看奇点机智如何从 800 多支队伍中杀出重围

「2018 机器阅读理解技术竞赛」落下帷幕，看奇点机智如何从 800 多支队伍中杀出重围

AI研习社

5+阅读 · 2018年5月28日

DuReader：百度大规模的中文机器阅读理解数据集

DuReader：百度大规模的中文机器阅读理解数据集

全球人工智能

7+阅读 · 2018年5月8日

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI研习社

7+阅读 · 2018年3月16日

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

机器学习研究会

10+阅读 · 2018年3月1日

业界 | 百度提出机器阅读理解技术V-NET，登顶MS MARCO数据集榜单

业界 | 百度提出机器阅读理解技术V-NET，登顶MS MARCO数据集榜单

机器之心

6+阅读 · 2018年2月22日

A Study of the Tasks and Models in Machine Reading Comprehension

A Study of the Tasks and Models in Machine Reading Comprehension

Arxiv

8+阅读 · 2020年1月23日

Extending Machine Language Models toward Human-Level Language Understanding

Extending Machine Language Models toward Human-Level Language Understanding

Arxiv

4+阅读 · 2019年12月12日

GREASE: A Generative Model for Relevance Search over Knowledge Graphs

Arxiv

4+阅读 · 2019年10月11日

A Capsule Network-based Embedding Model for Search Personalization

Arxiv

4+阅读 · 2019年3月6日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月28日

Read + Verify: Machine Reading Comprehension with Unanswerable Questions

Arxiv

3+阅读 · 2018年11月15日

Knowledge Based Machine Reading Comprehension

Knowledge Based Machine Reading Comprehension

Arxiv

4+阅读 · 2018年9月12日

A Read-Write Memory Network for Movie Story Understanding

Arxiv

5+阅读 · 2018年3月16日

MilkQA: a Dataset of Consumer Questions for the Task of Answer Selection

Arxiv

4+阅读 · 2018年1月10日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

VIP会员

相关主题

机器阅读理解

相关VIP内容

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

专知会员服务

17+阅读 · 2020年7月6日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【WWW2020-微软】理解用户行为用于文档推荐

【WWW2020-微软】理解用户行为用于文档推荐

专知会员服务

36+阅读 · 2020年4月5日

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知会员服务

163+阅读 · 2020年3月11日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

WSDM 2020教程《深度贝叶斯数据挖掘》，附257页PPT下载

WSDM 2020教程《深度贝叶斯数据挖掘》，附257页PPT下载

专知会员服务

157+阅读 · 2020年2月7日

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

专知会员服务

113+阅读 · 2019年12月20日

【阿里技术干货】知识结构化在阿里小蜜中的应用

【阿里技术干货】知识结构化在阿里小蜜中的应用

专知会员服务

98+阅读 · 2019年12月14日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】移动计算摄影的神经场表示

大语言模型遇见法律人工智能：综述

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

美军用无人地面战车发展：现代战争中超越弹药的多元应用

相关资讯

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

极市平台

24+阅读 · 2019年11月20日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

PaperWeekly

70+阅读 · 2019年1月8日

干货下载 | 中文自然语言处理语料/数据集

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

30+阅读 · 2018年12月27日

【开源】2018中文机器阅读理解竞赛第四名代码开源

【开源】2018中文机器阅读理解竞赛第四名代码开源

专知

55+阅读 · 2018年8月9日

「2018 机器阅读理解技术竞赛」落下帷幕，看奇点机智如何从 800 多支队伍中杀出重围

「2018 机器阅读理解技术竞赛」落下帷幕，看奇点机智如何从 800 多支队伍中杀出重围

AI研习社

5+阅读 · 2018年5月28日

DuReader：百度大规模的中文机器阅读理解数据集

DuReader：百度大规模的中文机器阅读理解数据集

全球人工智能

7+阅读 · 2018年5月8日

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI研习社

7+阅读 · 2018年3月16日

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

机器学习研究会

10+阅读 · 2018年3月1日

业界 | 百度提出机器阅读理解技术V-NET，登顶MS MARCO数据集榜单

业界 | 百度提出机器阅读理解技术V-NET，登顶MS MARCO数据集榜单

机器之心

6+阅读 · 2018年2月22日

相关论文

A Study of the Tasks and Models in Machine Reading Comprehension

A Study of the Tasks and Models in Machine Reading Comprehension

Arxiv

8+阅读 · 2020年1月23日

Extending Machine Language Models toward Human-Level Language Understanding

Extending Machine Language Models toward Human-Level Language Understanding

Arxiv

4+阅读 · 2019年12月12日

GREASE: A Generative Model for Relevance Search over Knowledge Graphs

Arxiv

4+阅读 · 2019年10月11日

A Capsule Network-based Embedding Model for Search Personalization

Arxiv

4+阅读 · 2019年3月6日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月28日

Read + Verify: Machine Reading Comprehension with Unanswerable Questions

Arxiv

3+阅读 · 2018年11月15日

Knowledge Based Machine Reading Comprehension

Knowledge Based Machine Reading Comprehension

Arxiv

4+阅读 · 2018年9月12日

A Read-Write Memory Network for Movie Story Understanding

Arxiv

5+阅读 · 2018年3月16日

MilkQA: a Dataset of Consumer Questions for the Task of Answer Selection

Arxiv

4+阅读 · 2018年1月10日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

大家都在搜

朱克爱德华兹家族

大型语言模型

IJCAI2025教程

无人机系统

国防科技创新

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员