NLP research in Hebrew has largely focused on morphology and syntax, where rich annotated datasets in the spirit of Universal Dependencies are available. Semantic datasets, however, are in short supply, hindering crucial advances in the development of NLP technology in Hebrew. In this work, we present ParaShoot, the first question answering dataset in modern Hebrew. The dataset follows the format and crowdsourcing methodology of SQuAD, and contains approximately 3000 annotated examples, similar to other question-answering datasets in low-resource languages. We provide the first baseline results using recently-released BERT-style models for Hebrew, showing that there is significant room for improvement on this task.


翻译:希伯来语的NLP研究主要侧重于形态学和语法,那里具备了具有普遍依赖精神的丰富的附加说明数据集。但语义数据集供应不足,妨碍了希伯来语NLP技术开发的重大进展。在这项工作中,我们介绍了现代希伯来语第一个回答数据集的问题ParaShoot。数据集遵循了SQAD的格式和众包方法,并包含了大约3,000个附加说明的例子,类似于其他低资源语言的问答数据集。我们用最近发行的希伯来语BERT型希伯来语模型提供了第一个基线结果,表明在这项任务上有很大的改进余地。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《Transformers模型》教程,64页ppt
专知会员服务
274+阅读 · 2020年11月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
274+阅读 · 2020年11月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
相关资讯
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员