WebSRC: 基于网络的结构阅读理解数据集 (WebSRC: A Dataset for Web-Based Structural Reading Comprehension) - 专知论文

会员服务 ·

0

可理解性 · 机器阅读理解 · 数据集 · INFORMS · 张成子空间 ·

2021 年 1 月 23 日

WebSRC: A Dataset for Web-Based Structural Reading Comprehension

翻译：WebSRC: 基于网络的结构阅读理解数据集

Lu Chen,Xingyu Chen,Zihan Zhao,Danyang Zhang,Jiabao Ji,Ao Luo,Yuxuan Xiong,Kai Yu

from arxiv, 13 pages, 9 figures

Web search is an essential way for human to obtain information, but it's still a great challenge for machines to understand the contents of web pages. In this paper, we introduce the task of web-based structural reading comprehension. Given a web page and a question about it, the task is to find an answer from the web page. This task requires a system not only to understand the semantics of texts but also the structure of the web page. Moreover, we proposed WebSRC, a novel Web-based Structural Reading Comprehension dataset. WebSRC consists of 0.44M question-answer pairs, which are collected from 6.5K web pages with corresponding HTML source code, screenshots, and metadata. Each question in WebSRC requires a certain structural understanding of a web page to answer, and the answer is either a text span on the web page or yes/no. We evaluate various strong baselines on our dataset to show the difficulty of our task. We also investigate the usefulness of structural information and visual features. Our dataset and task are publicly available at https://speechlab-sjtu.github.io/WebSRC/.

翻译：网络搜索是人类获取信息的重要途径, 但对于机器来说, 获取信息仍然是一个巨大的挑战。在本文中, 我们介绍基于网络的结构阅读理解任务。给网页和一个问题, 任务就是从网页上找到答案。任务不仅需要一个系统来理解文本的语义, 而且还要了解网页的结构。此外, 我们建议网络SRC, 一个基于网络的新型结构阅读综合数据集。 WebSRC 由来自6.5K网页的0. 44M 问答配对组成, 收集的是相应的 HTML 源代码、截图和元数据。 WebSRC 的每个问题都需要对网页的某种结构性理解, 答案要么是网页上的文本, 要么是/ 是/ 否。我们评估了我们数据集上的各种强大的基线, 以显示我们的任务的难度。我们还调查结构信息和视觉特征的有用性。我们的数据集和任务可以在https:// speechlab-sjtu.github.io/WebSRC/ 上公开查阅。

0

相关内容

可理解性

不可错过！UIUC最新《对抗机器学习》课程，附PPT

专知会员服务

35+阅读 · 2020年12月28日

【ACL2020】多模态信息抽取，365页ppt

【ACL2020】多模态信息抽取，365页ppt

专知会员服务

150+阅读 · 2020年7月6日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【从半结构化网页获取知识】Ceres: Harvesting Knowledge from Semi-Structured web pages，亚马逊首席科学家| Xin Luna Dong

【从半结构化网页获取知识】Ceres: Harvesting Knowledge from Semi-Structured web pages，亚马逊首席科学家| Xin Luna Dong

专知会员服务

18+阅读 · 2019年12月13日

【NLP| 推荐文章】神经网络方法的机器阅读理解：方法与趋势（Neural Machine Reading Comprehension：Methods and Trends）

专知会员服务

41+阅读 · 2019年11月24日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

【深度学习视频分析/多模态学习资源大列表】

【深度学习视频分析/多模态学习资源大列表】

专知会员服务

92+阅读 · 2019年10月16日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

32+阅读 · 2019年10月16日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Call for Participation: Shared Tasks in NLPCC 2019

Call for Participation: Shared Tasks in NLPCC 2019

中国计算机学会

5+阅读 · 2019年3月22日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

【论文推荐】最新六篇自动问答相关论文—排序函数、文本摘要评估、信息抽取框架、层次递归编码器、半监督问答

【论文推荐】最新六篇自动问答相关论文—排序函数、文本摘要评估、信息抽取框架、层次递归编码器、半监督问答

专知

9+阅读 · 2018年5月10日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

【专知荟萃04】自动问答QA知识资料全集（入门/进阶/论文/代码/数据/综述/专家等）（附pdf下载）

【专知荟萃04】自动问答QA知识资料全集（入门/进阶/论文/代码/数据/综述/专家等）（附pdf下载）

专知

52+阅读 · 2017年11月3日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

Commonsense Knowledge + BERT for Level 2 Reading Comprehension Ability Test

Arxiv

4+阅读 · 2019年9月8日

Incorporating Relation Knowledge into Commonsense Reading Comprehension with Multi-task Learning

Arxiv

5+阅读 · 2019年9月5日

Zero-Shot Entity Linking by Reading Entity Descriptions

Zero-Shot Entity Linking by Reading Entity Descriptions

Arxiv

6+阅读 · 2019年6月18日

Span Based Open Information Extraction

Arxiv

3+阅读 · 2019年3月1日

Visual Question Answering as Reading Comprehension

Arxiv

3+阅读 · 2018年11月29日

Commonsense for Generative Multi-Hop Question Answering Tasks

Arxiv

4+阅读 · 2018年9月17日

Knowledge Based Machine Reading Comprehension

Knowledge Based Machine Reading Comprehension

Arxiv

4+阅读 · 2018年9月12日

Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Graph Neural Networks

Arxiv

6+阅读 · 2018年9月6日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

VIP会员

文章信息

相关主题

机器阅读理解

张成子空间

相关VIP内容

不可错过！UIUC最新《对抗机器学习》课程，附PPT

专知会员服务

35+阅读 · 2020年12月28日

【ACL2020】多模态信息抽取，365页ppt

【ACL2020】多模态信息抽取，365页ppt

专知会员服务

150+阅读 · 2020年7月6日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【从半结构化网页获取知识】Ceres: Harvesting Knowledge from Semi-Structured web pages，亚马逊首席科学家| Xin Luna Dong

【从半结构化网页获取知识】Ceres: Harvesting Knowledge from Semi-Structured web pages，亚马逊首席科学家| Xin Luna Dong

专知会员服务

18+阅读 · 2019年12月13日

【NLP| 推荐文章】神经网络方法的机器阅读理解：方法与趋势（Neural Machine Reading Comprehension：Methods and Trends）

专知会员服务

41+阅读 · 2019年11月24日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

【深度学习视频分析/多模态学习资源大列表】

【深度学习视频分析/多模态学习资源大列表】

专知会员服务

92+阅读 · 2019年10月16日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

32+阅读 · 2019年10月16日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

GPT-5如何对齐？从硬性拒绝到安全完成：走向以输出为中心的安全训练

【伯克利博士论文】超越人类监督的视觉智能

【ICCV2025】SO(3) 上连续非保守动力系统的预测

2025年中国数据要素行业发展研究报告

相关资讯

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Call for Participation: Shared Tasks in NLPCC 2019

Call for Participation: Shared Tasks in NLPCC 2019

中国计算机学会

5+阅读 · 2019年3月22日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

【论文推荐】最新六篇自动问答相关论文—排序函数、文本摘要评估、信息抽取框架、层次递归编码器、半监督问答

【论文推荐】最新六篇自动问答相关论文—排序函数、文本摘要评估、信息抽取框架、层次递归编码器、半监督问答

专知

9+阅读 · 2018年5月10日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

【专知荟萃04】自动问答QA知识资料全集（入门/进阶/论文/代码/数据/综述/专家等）（附pdf下载）

【专知荟萃04】自动问答QA知识资料全集（入门/进阶/论文/代码/数据/综述/专家等）（附pdf下载）

专知

52+阅读 · 2017年11月3日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

相关论文

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

Commonsense Knowledge + BERT for Level 2 Reading Comprehension Ability Test

Arxiv

4+阅读 · 2019年9月8日

Incorporating Relation Knowledge into Commonsense Reading Comprehension with Multi-task Learning

Arxiv

5+阅读 · 2019年9月5日

Zero-Shot Entity Linking by Reading Entity Descriptions

Zero-Shot Entity Linking by Reading Entity Descriptions

Arxiv

6+阅读 · 2019年6月18日

Span Based Open Information Extraction

Arxiv

3+阅读 · 2019年3月1日

Visual Question Answering as Reading Comprehension

Arxiv

3+阅读 · 2018年11月29日

Commonsense for Generative Multi-Hop Question Answering Tasks

Arxiv

4+阅读 · 2018年9月17日

Knowledge Based Machine Reading Comprehension

Knowledge Based Machine Reading Comprehension

Arxiv

4+阅读 · 2018年9月12日

Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Graph Neural Networks

Arxiv

6+阅读 · 2018年9月6日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

微信扫码咨询专知VIP会员