We demonstrate the potential of few-shot translation systems, trained with unpaired language data, for both high and low-resource language pairs. We show that with only 5 examples of high-quality translation data shown at inference, a transformer decoder-only model trained solely with self-supervised learning, is able to match specialized supervised state-of-the-art models as well as more general commercial translation systems. In particular, we outperform the best performing system on the WMT'21 English - Chinese news translation task by only using five examples of English - Chinese parallel data at inference. Moreover, our approach in building these models does not necessitate joint multilingual training or back-translation, is conceptually simple and shows the potential to extend to the multilingual setting. Furthermore, the resulting models are two orders of magnitude smaller than state-of-the-art language models. We then analyze the factors which impact the performance of few-shot translation systems, and highlight that the quality of the few-shot demonstrations heavily determines the quality of the translations generated by our models. Finally, we show that the few-shot paradigm also provides a way to control certain attributes of the translation -- we show that we are able to control for regional varieties and formality using only a five examples at inference, paving the way towards controllable machine translation systems.


翻译:我们展示了微小的翻译系统的潜力,这些系统在高、低资源语言配对方面都受过未受重视的语言数据培训。我们展示了高、低资源语言配对方面的潜在潜力。我们展示了只有五个高品质翻译数据实例,在推论中显示的只有五个高品质翻译数据实例,一个仅经过自我监督学习培训的变压器解码器单一模型,能够匹配专门监管的先进模型以及更一般的商业翻译系统。我们尤其表现得优于WMT'21年英文-中文新闻翻译工作的最佳运作系统,只使用了五个中英平行数据实例。此外,我们建设这些模型的方法并不要求联合进行多语种培训或回译,而是在概念上简单明了,并显示了推广到多语种环境的潜力。此外,所产生的模型规模比最新语言模式规模小两级,比一般商业翻译系统的效果要小,我们然后分析了影响少数翻译系统工作的因素,并着重指出,少发演示的质量在很大程度上决定了我们模型产生的翻译的质量。最后,我们展示了少发模式的范例也只能提供一种途径,我们只能用来控制某些机器翻译的典型。

0
下载
关闭预览

相关内容

小样本学习(Few-Shot Learning,以下简称 FSL )用于解决当可用的数据量比较少时,如何提升神经网络的性能。在 FSL 中,经常用到的一类方法被称为 Meta-learning。和普通的神经网络的训练方法一样,Meta-learning 也包含训练过程和测试过程,但是它的训练过程被称作 Meta-training 和 Meta-testing。
NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
35+阅读 · 2022年10月2日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
138+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
130+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
83+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
IEEE ICKG 2022: Call for Papers
机器学习与推荐算法
2+阅读 · 2022年3月30日
ACM MM 2022 Call for Papers
CCF多媒体专委会
4+阅读 · 2022年3月29日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
17+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
13+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
13+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
36+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
10+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 3月20日
Arxiv
10+阅读 · 2017年12月29日
VIP会员
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
IEEE ICKG 2022: Call for Papers
机器学习与推荐算法
2+阅读 · 2022年3月30日
ACM MM 2022 Call for Papers
CCF多媒体专委会
4+阅读 · 2022年3月29日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
17+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
13+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
13+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
36+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
10+阅读 · 2018年12月24日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员