会员服务 ·

XLM-RoBERTa: 一种多语言预训练模型

2020 年 7 月 31 日 AINLP

每日英文

Wisdom in the mind is better than money in the hand.

脑中有知识，胜过手中有金钱。

Recommender：云不见

作者：Branden Chan

原文链接：

https://medium.com/deepset-ai/xlm-roberta-the-multilingual-alternative-for-non-english-nlp-cf0b889ccbbf

翻译：王萌澳门城市大学(深度学习自然语言处理公众号)

多语言模型是否改善了单语言模型的不足？

巴别塔（图片来自维基百科）

如果您使用非英语语言进行NLP，则经常会困扰于“我应该使用哪种语言模型？”这一问题。尽管社区的单语训练模型越来越多，但还有一种似乎不太受关注的替代方法：多语言模型。

在本文中，我们重点介绍XLM-R模型的关键要素，并探讨其在德语中的性能。我们发现，在三个流行的德语数据集上，它的表现优于我们的单语德语；虽然在 GermEval18 （仇恨语音检测）上与 SOTA 性能相当，但在 GermEval14 (NER) 上显著优于以前的方法。

为什么要使用多语言模型？

XLM-Roberta的出现正值非英语模式如Finnish BERT，French BERT（又称CamemBERT）和German BERT激增之时。通过与研究人员的交流互动以及与业界的联系，我们意识到，现在确实需要将尖端NLP技术用于非英语语言。

我们也坚信，多语言模型对于那些期望未来扩张的公司来说是一个很好的解决方案。过去，我们与客户合作过，这些客户目前只使用一种语言运营，但有将服务扩展到全球的雄心。对他们来说，多语言模型是一种面向未来的形式，可确保其有的 NLP 基础架构能够让他们无论选择多少地区开展业务都可以去拓展。

XLM-Roberta有什么新功能？

Facebook AI团队于2019年11月发布了XLM-RoBERTa，作为其原始XLM-100模型的更新。它们都是基于转换器的语言模型，都依赖于掩码语言模型目标，并且都能够处理100种不同语言的文本。相较于原始版本，XLM-Roberta的最大更新是训练数据量的显著增加。经过清洗训练过的常用爬虫数据集占用高达2.5tb的存储空间！它比用来训练其前身的Wiki-100语料库大几个数量级，并且在资源较少的语言中，扩展尤其明显。它比用来训练其前版本的Wiki-100语料库大几个数量级，并且在资源较少的语言中，这种扩大尤其明显。“ RoBERTa”从某方面来说，它的训练程序与单语言RoBERTa模型相同，特别是唯一的训练目标是掩码语言模型。它没有下句预测的á la BERT模型或者句子顺序预测的á la ALBERT模型。

每种语言的常见爬虫数据集的容量增加超过了维基百科的(来自XLM-RoBERTa论文)

XLM-Roberta现在使用一个大型共享语句块模型来标记字符串，而不是像XLM-100那样具有大量特定语言的分词器。验证困惑度也不再用作训练时的停止标准，因为研究人员发现，即使困惑度没有提高，后续性能也继续提高。

结果

最后，我们对XLM-RoBERTa的一分类和两项NER任务进行了评估，它们表现出了非常出色的性能。XLM-RoBERTa Large与GermEval18（分类）的最佳提交分数不相上下。在GermEval14（NER）上，该模型在F1的表现比在Flair的要好2.35%。

评估结果。这里是GermEval18 的排行榜，这里是Flair报告的分数

这些结果是在不进行大量超参数调整的情况下得出的，我们希望通过进一步调整学习率和batch大小可以改善这些结果。另外，对于NER任务，我们认为在XLM-RoBERTa的上一层添加CRF层会有所收获。

结论

这些结果实力表明，即使在单一语言上进行评估，多语言模型也表现出出色的性能，我们建议德国NLP从业人员在为其NLP系统选择语言模型时至少考虑XLM-Roberta变体之一。打破以英语为中心的NLP研究的重要性已经被Emily Bender教授广泛地讨论过，我们相信非英语语言的研究只会增加。我们认为，未来最好的模型可以从文本中学习，不仅可以从不同的领域而且可以从不同的语言中学习，这并不是不可思议的。

编辑于17/02/20：我们之前曾报告过CoNLL2003的分数由于数据集问题而有误

推荐阅读

这个NLP工具，玩得根本停不下来

征稿启示| 200元稿费+5000DBC（价值20个小时GPU算力）

完结撒花！李宏毅老师深度学习与人类语言处理课程视频及课件（附下载）

从数据到模型，你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus，一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具（NER）哪家强？

学自然语言处理，其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。