题目

跨语言表示学习,Unsupervised Cross-lingual Representation Learning at Scale

关键词

自然语言处理,表示学习,跨语言,人工智能

简介

本文表明,针对多种跨语言转换任务,大规模地对多语言语言模型进行预训练可以显着提高性能。 我们使用超过2 TB的经过过滤的CommonCrawl数据在一百种语言上训练了基于Transformer的屏蔽语言模型。 我们的模型称为XLM-R,在各种跨语言基准测试中,其性能明显优于多语言BERT(mBERT),包括XNLI的平均精度为+ 13.8%,MLQA的平均F1得分为+ 12.3%,NER的平均F1得分为+ 2.1%。 XLM-R在低资源语言上表现特别出色,与以前的XLM模型相比,斯瓦希里语的XNLI准确性提高了11.8%,乌尔都语的准确性提高了9.2%。 我们还对获得这些收益所需的关键因素进行了详细的实证评估,包括(1)积极转移和能力稀释以及(2)大规模资源资源的高低性能之间的权衡。 最后,我们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性。 XLM-R在GLUE和XNLI基准测试中具有强大的单语言模型,因此非常具有竞争力。 我们将公开提供XLM-R代码,数据和模型。

作者

Alexis Conneau, Kartikay Khandelwal等。

成为VIP会员查看完整内容
0
17

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

在为视觉训练深度神经网络时,预训练表示的迁移提高了样本效率并简化了超参数调整。我们回顾了在大型监督数据集上进行预训练和在目标任务上对模型进行微调的范例。我们扩大了预训练的规模,并提出了一个简单的方法,我们称之为大迁移(BiT)。通过组合一些精心选择的组件,并使用一个简单的启发式传输,我们在20多个数据集上实现了强大的性能。BiT在非常广泛的数据范围内执行得非常好——从每个类1个示例到总共100万个示例。BiT在ILSVRC-2012上达到87.5%的top-1准确率,在CIFAR-10上达到99.4%,在19个任务的视觉任务适应基准(VTAB)上达到76.3%。在小型数据集上,在ILSVRC-2012上BiT达到了76.8%,每个类有10个例子,在CIFAR-10上达到了97.0%,每个类有10个例子。我们对导致高迁移性能的主要部件进行了详细的分析。

成为VIP会员查看完整内容
0
26

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
42

题目: TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

简介: 深度和大型预训练语言模型是各种自然语言处理任务的最新技术。但是,这些模型的巨大规模可能会阻碍在实践中使用它们。一些近期和并行的工作使用知识蒸馏将这些巨大的模型压缩为浅层模型。在这项工作中,我们重点研究多语言命名实体识别(NER)的知识提炼。特别是,我们研究了几种蒸馏策略,并提出了一个阶段性的优化方案,该方案利用了与教师架构无关的教师内部表示形式,并表明它优于先前工作中采用的策略。此外,我们调查了几个因素的作用,例如未标记数据的数量,注释资源,模型架构和推理延迟仅举几例。我们证明了我们的方法可以对MBERT类教师模型进行大规模压缩,在参数推断方面最多可压缩35倍,在延迟方面则可压缩51倍,同时为41种语言的NER有95%的F1分数。

成为VIP会员查看完整内容
0
25

题目: CURL: Contrastive Unsupervised Representations for Reinforcement Learning

摘要:

我们提出了CURL:用于强化学习的对比无监督表示法。CURL使用对比学习从原始像素中提取高级特征,并在提取的特征之上执行off-policy控制。在DeepMind控制套件和Atari游戏中,在100K交互步骤基准测试中,CURL在复杂任务上的表现优于先前基于模型和非模型的基于像素的方法,分别提高了2.8倍和1.6倍的性能。在DeepMind控制套件中,CURL是第一个基于图像的算法,它的效率和性能几乎与使用基于状态的特性的方法不相上下。

成为VIP会员查看完整内容
0
13

本文表明,在大规模的多语言预训练模型,可以显著地提高跨语言迁移任务的性能。我们使用超过2TB的过滤CommonCrawl数据,在100种语言上训练一个基于Transformer的掩码语言模型。我们的模型被称为XLM-R,在多种跨语言基准测试中显著优于多语言BERT (mBERT),包括XNLI的平均正确率+13.8%,MLQA的平均F1分数+12.3%,NER的平均F1分数+2.1%。XLM- r在低资源语言上表现特别好,与以前的XLM模型相比,XNLI在斯瓦希里语上的准确率提高了11.8%,在乌尔都语上的准确率提高了9.2%。我们还对实现这些收益所需的关键因素进行了详细的实证评估,包括(1)积极迁移和能力稀释之间的权衡,以及(2)大规模高资源语言和低资源语言的性能。最后,我们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性;XLM-Ris在GLUE和XNLI基准上有很强的单语言模型,非常有竞争力。我们将使XLM-R代码、数据和模型公开可用。

成为VIP会员查看完整内容
0
28

题目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

摘要: 本文介绍了一种新的用于图像-文本联合嵌入的视觉语言预训练模型图像BERT。我们的模型是一个基于Transformer的模型,它以不同的模态作为输入,对它们之间的关系进行建模。该模型同时进行了四项任务的预训练:掩蔽语言建模(MLM)、掩蔽对象分类(MOC)、掩蔽区域特征回归(MRFR)和图像文本匹配(ITM)。为了进一步提高预训练的质量,我们从Web上收集了一个大规模的弱监督图像-文本(LAIT)数据集。我们首先在这个数据集上对模型进行预训练,然后对概念字幕和SBU字幕进行第二阶段的预训练。实验结果表明,多阶段预训练策略优于单阶段预训练策略。我们还在图像检索和文本检索任务上对预先训练好的ImageBERT模型进行了调优和评估,并在MSCOCO和Flickr30k数据集上获得了最好的效果。

成为VIP会员查看完整内容
0
30

题目: Large Scale Learning of General Visual Representations for Transfer

摘要: 在训练深层视觉神经网络时,预训练表示的传递提高了样本效率,简化了超参数整定。我们重新审视了在大监督数据集上进行预训练和微调目标任务权重的范例。我们扩大了训练前的规模,并创建了一个简单的配方,我们称之为大转移(BiT)。通过组合一些精心挑选的组件,并使用简单的启发式进行传输,我们在20多个数据集上获得了很强的性能。BiT在一系列出人意料的数据体系中表现良好——从10到100万个标记示例。BiT在ILSVRC-2012上达到87.8%的top-1精度,在CIFAR-10上达到99.3%,在视觉任务适应基准(包括19个任务)上达到76.7%。在小型数据集上,ILSVRC-2012每类25个示例的BiT达到86.4%,CIFAR-10每类10个示例的BiT达到97.6%。我们对导致高传输性能的主要组件进行了详细的分析。

作者简介: Alexander Kolesnikov,谷歌仪器科学家。个人主页:[https://neutrons.ornl.gov/contacts/kolesnikovai]{https://neutrons.ornl.gov/contacts/kolesnikovai}

成为VIP会员查看完整内容
0
6

教程题目:Unsupervised Cross-Lingual Representation Learning

教程简介

在本教程中,将会对弱监督、无监督跨语言词表征领域的最新最前沿成果进行一次完整的综述。在简要介绍了监督跨语言词表示的历史之后,重点介绍以下内容:

  1. 如何在资源非常有限以至于无法保证双语监督的情况下引入弱监督以及无监督的跨语言词表征;
  2. 在无监督方法无法高效运行的情况下检验不同训练条件和要求的效果;
  3. 用于弱关联性语言之间的更鲁棒的方法能够改善不稳定以及表现不佳的问题;
  4. 如何综合评价这种表述;
  5. 介绍能从跨语言词表征中获得收益的实际应用(如MT、对话、跨语言序列标记和结构化预测应用、跨语言IR)

组织者:

Sebastian Ruder是伦敦DeepMind的一名研究科学家。在Insight数据分析研究中心完成了自然语言处理和深度学习的博士学位,同时在柏林的文本分析初创公司AYLIEN担任研究科学家。

Anders Søgaard是哥本哈根大学计算机科学自然语言处理与机器学习教授,同时是柏林谷歌的访问科学家。

Ivan Vulić目前担任剑桥大学词汇项目(2015-2020年跨语言词汇习得)的高级研究员。在库鲁汶大学获得了计算机科学博士学位,研究兴趣是自然语言处理、人类语言理解、机器学习理论和应用,信息检索,主要在多语言/跨语言和多模式设置,包括(但不限于)双语词典提取和跨语言语义建模、跨语言和多语言信息检索,分布语义,跨语言文本挖掘和知识转移,语言基础和认知建模的语言,词汇获取、文本表示学习、潜在主题模型、文本数据的概率建模、术语挖掘和对齐、机器翻译、资源稀缺语言的无监督技术、多习惯用法和多模态信息搜索和检索、多模态和视觉/感知增强语义等。

成为VIP会员查看完整内容
Unsupervised Cross-lingual Learning.pdf
0
13

摘要: 现有的不流利检测方法大多严重依赖人工标注的数据,而在实践中获取这些数据的成本很高。为了解决训练数据的瓶颈,我们研究了将多个自监督任务相结合的方法。在监督任务中,无需人工标记就可以收集数据。首先,我们通过随机添加或删除未标记新闻数据中的单词来构建大规模的伪训练数据,并提出了两个自我监督的训练前任务:(i)标记任务来检测添加的噪声单词。(ii)对句子进行分类,区分原句和语法错误句子。然后我们将这两个任务结合起来共同训练一个网络。然后使用人工标注的不流利检测训练数据对训练前的网络进行微调。在常用的英语交换机测试集上的实验结果表明,与以前的系统(使用完整数据集进行训练)相比,我们的方法只需使用不到1%(1000个句子)的训练数据,就可以获得具有竞争力的性能。我们的方法在全数据集上进行训练,明显优于以前的方法,在英语Switchboard上将错误率降低了21%。

成为VIP会员查看完整内容
0
11

This paper shows that pretraining multilingual language models at scale leads to significant performance gains for a wide range of cross-lingual transfer tasks. We train a Transformer-based masked language model on one hundred languages, using more than two terabytes of filtered CommonCrawl data. Our model, dubbed XLM-R, significantly outperforms multilingual BERT (mBERT) on a variety of cross-lingual benchmarks, including +13.8% average accuracy on XNLI, +12.3% average F1 score on MLQA, and +2.1% average F1 score on NER. XLM-R performs particularly well on low-resource languages, improving 11.8% in XNLI accuracy for Swahili and 9.2% for Urdu over the previous XLM model. We also present a detailed empirical evaluation of the key factors that are required to achieve these gains, including the trade-offs between (1) positive transfer and capacity dilution and (2) the performance of high and low resource languages at scale. Finally, we show, for the first time, the possibility of multilingual modeling without sacrificing per-language performance; XLM-Ris very competitive with strong monolingual models on the GLUE and XNLI benchmarks. We will make XLM-R code, data, and models publicly available.

0
4
下载
预览
小贴士
相关VIP内容
专知会员服务
42+阅读 · 2020年4月24日
专知会员服务
28+阅读 · 2020年4月5日
相关资讯
相关论文
Aravind Srinivas,Michael Laskin,Pieter Abbeel
10+阅读 · 2020年4月28日
Alexis Conneau,Kartikay Khandelwal,Naman Goyal,Vishrav Chaudhary,Guillaume Wenzek,Francisco Guzmán,Edouard Grave,Myle Ott,Luke Zettlemoyer,Veselin Stoyanov
4+阅读 · 2019年11月5日
Continual Unsupervised Representation Learning
Dushyant Rao,Francesco Visin,Andrei A. Rusu,Yee Whye Teh,Razvan Pascanu,Raia Hadsell
5+阅读 · 2019年10月31日
Xiaohua Zhai,Avital Oliver,Alexander Kolesnikov,Lucas Beyer
4+阅读 · 2019年5月9日
Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning
Baoyuan Wu,Weidong Chen,Yanbo Fan,Yong Zhang,Jinlong Hou,Junzhou Huang,Wei Liu,Tong Zhang
8+阅读 · 2019年1月7日
Xilun Chen,Claire Cardie
3+阅读 · 2018年8月27日
Large-Scale Study of Curiosity-Driven Learning
Yuri Burda,Harri Edwards,Deepak Pathak,Amos Storkey,Trevor Darrell,Alexei A. Efros
7+阅读 · 2018年8月13日
Douwe Kiela,Alexis Conneau,Allan Jabri,Maximilian Nickel
5+阅读 · 2018年6月4日
Luke Metz,Niru Maheswaranathan,Brian Cheung,Jascha Sohl-Dickstein
5+阅读 · 2018年5月23日
Guillaume Lample,Myle Ott,Alexis Conneau,Ludovic Denoyer,Marc'Aurelio Ranzato
4+阅读 · 2018年4月20日
Top