In task-oriented dialogue (ToD), a user holds a conversation with an artificial agent to complete a concrete task. Although this technology represents one of the central objectives of AI and has been the focus of ever more intense research and development efforts, it is currently limited to a few narrow domains (e.g., food ordering, ticket booking) and a handful of languages (e.g., English, Chinese). This work provides an extensive overview of existing methods and resources in multilingual ToD as an entry point to this exciting and emerging field. We find that the most critical factor preventing the creation of truly multilingual ToD systems is the lack of datasets in most languages for both training and evaluation. In fact, acquiring annotations or human feedback for each component of modular systems or for data-hungry end-to-end systems is expensive and tedious. Hence, state-of-the-art approaches to multilingual ToD mostly rely on (zero- or few-shot) cross-lingual transfer from resource-rich languages (almost exclusively English), either by means of machine translation or multilingual representations. These approaches are currently viable only for typologically similar languages and languages with parallel / monolingual corpora available. On the other hand, their effectiveness beyond these boundaries is doubtful or hard to assess due to the lack of linguistically diverse benchmarks (especially for natural language generation and end-to-end evaluation). To overcome this limitation, we draw parallels between components of the ToD pipeline and other NLP tasks, which can inspire solutions for learning in low-resource scenarios. Finally, we list additional challenges that multilinguality poses for related areas (such as speech and human-centred evaluation), and indicate future directions that hold promise to further expand language coverage and dialogue capabilities of current ToD systems.


翻译:在以任务为导向的对话(ToD)中,用户与一个人工代理商保持对话,以完成具体任务。虽然这一技术是AI的核心目标之一,并且一直是日益密集的研究和发展努力的重点,但目前它仅限于几个狭窄的领域(如食品订购、订票)和少数语言(如英文、中文),这项工作广泛概述了多语种的ToD的现有方法和资源,作为这个令人兴奋和新兴领域的切入点。我们发现,阻碍创建真正多语言的 ToD系统的最重要因素是缺乏大多数语言用于培训和评价的数据集。事实上,为模块系统的各个组成部分或数据饥饿端对端系统获得说明或人类反馈的费用和时髦。因此,目前对多语种的多语种方法的跨语种转移(大多为英语),或者通过机器翻译或多语种表达,这些方法目前仅对语言的低语种数据集设置数据集,而且超越语言的覆盖范围范围,而且对于同时/单语言的生成来说,这些语言的难度最终也比其他语言的难度。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
278+阅读 · 2020年11月26日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
24+阅读 · 2019年10月18日
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度学习自然语言处理阅读清单
专知
23+阅读 · 2019年1月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Arxiv
0+阅读 · 2021年7月25日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关资讯
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度学习自然语言处理阅读清单
专知
23+阅读 · 2019年1月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Top
微信扫码咨询专知VIP会员