Research interest in task-oriented dialogs has increased as systems such as Google Assistant, Alexa and Siri have become ubiquitous in everyday life. However, the impact of academic research in this area has been limited by the lack of datasets that realistically capture the wide array of user pain points. To enable research on some of the more challenging aspects of parsing realistic conversations, we introduce PRESTO, a public dataset of over 550K contextual multilingual conversations between humans and virtual assistants. PRESTO contains a diverse array of challenges that occur in real-world NLU tasks such as disfluencies, code-switching, and revisions. It is the only large scale human generated conversational parsing dataset that provides structured context such as a user's contacts and lists for each example. Our mT5 model based baselines demonstrate that the conversational phenomenon present in PRESTO are challenging to model, which is further pronounced in a low-resource setup.


翻译:近年来,随着Google Assistant、Alexa和Siri等系统在日常生活中变得无处不在,人们对任务导向的对话的研究兴趣不断增加。然而,学术研究在这个领域的影响受到了现实对话数据集的限制,这些数据集往往不能真实地捕捉到用户面临的种种问题。为了促进对解析真实对话中的更具挑战性的方面的研究,我们推出了PRESTO,这是一个公开的数据集,包含超过55万个多语言、情境相关的对话样例,其中包含实际的、不规则的语音、语言切换以及意图修订等问题,涉及到的语言类型广泛多样。它是唯一一个包含每个样例的结构化上下文(如用户的联系人和列表)的大规模人为生成的对话解析数据集。我们基于mT5模型的基线演示了PRESTO中存在的对话现象具有很大的挑战性,尤其在语言资源较少的情况下更加明显。

0
下载
关闭预览

相关内容

揭秘ChatGPT情感对话能力
专知会员服务
56+阅读 · 2023年4月9日
【AAAI2021】对话推理:上下文阅读理解提升回复生成
专知会员服务
43+阅读 · 2021年1月23日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
13+阅读 · 2022年8月16日
VIP会员
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员