本文表明,在大规模的多语言预训练模型,可以显著地提高跨语言迁移任务的性能。我们使用超过2TB的过滤CommonCrawl数据,在100种语言上训练一个基于Transformer的掩码语言模型。我们的模型被称为XLM-R,在多种跨语言基准测试中显著优于多语言BERT (mBERT),包括XNLI的平均正确率+13.8%,MLQA的平均F1分数+12.3%,NER的平均F1分数+2.1%。XLM- r在低资源语言上表现特别好,与以前的XLM模型相比,XNLI在斯瓦希里语上的准确率提高了11.8%,在乌尔都语上的准确率提高了9.2%。我们还对实现这些收益所需的关键因素进行了详细的实证评估,包括(1)积极迁移和能力稀释之间的权衡,以及(2)大规模高资源语言和低资源语言的性能。最后,我们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性;XLM-Ris在GLUE和XNLI基准上有很强的单语言模型,非常有竞争力。我们将使XLM-R代码、数据和模型公开可用。

成为VIP会员查看完整内容
33

相关内容

【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
跨语言版BERT:Facebook提出跨语言预训练模型XLM
机器之心
4+阅读 · 2019年2月6日
Facebook开源增强版LASER库,包含93种语言工具包
机器之心
5+阅读 · 2019年1月23日
Arxiv
9+阅读 · 2019年4月19日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Large-Scale Study of Curiosity-Driven Learning
Arxiv
8+阅读 · 2018年8月13日
VIP会员
微信扫码咨询专知VIP会员