题目: Data Augmentation using Pre-trained Transformer Models

简介:

基于语言模型的预训练模型,如BERT,在不同的NLP任务中提供了显著的收益。在本文中,我们研究了不同类型的基于自回归模型(GPT-2)、自编码器模型(BERT)和seq2seq模型(BART)等用于条件数据增强的预训练变压器模型。我们表明,将类标签前置到文本序列提供了一种简单而有效的方法来设置预训练模型的条件,以便进行数据扩充。在三个分类基准上,预先训练的Seq2Seq模型优于其他模型。此外,我们还探讨了不同的基于预训练模型的数据扩充在数据多样性方面是如何不同的,以及这些方法如何很好地保存类标签信息。

成为VIP会员查看完整内容
0
36

相关内容

预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。

题目: Adversarial Training for Large Neural Language Models

简介: 泛化性和鲁棒性都是设计机器学习方法的关键要求。对抗性训练可以增强鲁棒性,但是过去的工作常常发现它不利于推广。在自然语言处理(NLP)中,预训练大型神经语言模型(例如BERT)在针对各种任务的通用化方面显示出令人印象深刻的收益,而从对抗性微调中得到了进一步的改进。但是,这些模型仍然容易受到对抗性攻击。在本文中,我们表明对抗性预训练可以同时提高泛化性和鲁棒性。我们提出了一种通用算法ALUM(大型神经语言模型的专家训练),该算法通过在嵌入空间中应用扰动来最大化训练目标,从而使对抗性损失最大化。我们将对所有阶段的对抗训练进行全面的研究,包括从头开始进行预训练,在训练有素的模型上进行连续的预训练以及针对特定任务的微调。在常规和对抗性方案中,在各种NLP任务上,ALUM都比BERT获得了可观的收益。即使对于已经在超大型文本语料库上进行过良好训练的模型(例如RoBERTa),ALUM仍可以通过连续的预训练获得可观的收益,而传统的非对抗方法则不能。可以将ALUM与特定于任务的微调进一步结合以获取更多收益。

成为VIP会员查看完整内容
0
32

题目: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

摘要: 语言模型预先从各种来源的文本训练,形成了今天的自然语言处理的基础。鉴于这些广泛覆盖模型的成功,我们研究了将一个预训练的模型裁剪到目标任务的领域是否仍然有帮助。我们提出了一项涉及四个领域(生物医学和计算机科学出版物、新闻和评论)和八个分类任务的研究,表明在高资源和低资源环境下,领域内的第二阶段训练(领域自适应训练)可提高性能。此外,适应任务的未标记数据(任务自适应预训练)甚至可以提高域自适应预训练后的性能。最后,我们证明使用简单的数据选择策略来适应扩充的任务语料库是一种有效的替代方法,特别是在域自适应预训练资源可能不可用的情况下。总的来说,我们一致发现,多相适应性训练在任务效果方面提供了很大的提高。

成为VIP会员查看完整内容
0
36

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
42

由于硬件资源有限,训练深度学习模型的目标通常是在训练和推理的时间和记忆约束下使准确性最大化。在这种情况下,我们研究了模型大小的影响,重点研究了受计算限制的NLP任务的Transformer模型:自我监督的预训练和高资源机器翻译。我们首先表明,尽管较小的Transformer模型在每次迭代中执行得更快,但是更广泛和更深入的模型在更少的步骤中收敛。此外,这种收敛速度通常超过使用大型模型的额外计算开销。因此,最具计算效率的训练策略是反直觉地训练非常大的模型,但是在少量的迭代之后停止。

这导致大型Transformer 模型的训练效率与小型Transformer 模型的推理效率之间存在明显的权衡。然而,我们证明大型模型比小型模型对量化和剪枝等压缩技术有更强的鲁棒性。因此,我们可以同时利用两个方面的优势:高度压缩的大型模型比轻度压缩的小型模型获得更高的精度。

成为VIP会员查看完整内容
0
21

基于语言模型的预训练模型,如BERT,在不同的NLP任务中提供了显著的收益。在本文中,我们研究了不同类型的基于自回归模型(GPT-2)、自编码器模型(BERT)和seq2seq模型(BART)等用于条件数据增强的预训练transformer 模型。我们表明,将类标签前置到文本序列提供了一种简单而有效的方法来设置预训练模型的条件,以便进行数据扩充。在三个分类基准上,预先训练的Seq2Seq模型优于其他模型。此外,我们还探讨了不同的基于预训练模型的数据扩充在数据多样性方面是如何不同的,以及这些方法如何很好地保存类标签信息。

成为VIP会员查看完整内容
0
42

Language model based pre-trained models such as BERT have provided significant gains across different NLP tasks. In this paper, we study different types of pre-trained transformer based models such as auto-regressive models (GPT-2), auto-encoder models (BERT), and seq2seq models (BART) for conditional data augmentation. We show that prepending the class labels to text sequences provides a simple yet effective way to condition the pre-trained models for data augmentation. On three classification benchmarks, pre-trained Seq2Seq model outperforms other models. Further, we explore how different pre-trained model based data augmentation differs in-terms of data diversity, and how well such methods preserve the class-label information.

0
8
下载
预览

题目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

摘要: 本文介绍了一种新的用于图像-文本联合嵌入的视觉语言预训练模型图像BERT。我们的模型是一个基于Transformer的模型,它以不同的模态作为输入,对它们之间的关系进行建模。该模型同时进行了四项任务的预训练:掩蔽语言建模(MLM)、掩蔽对象分类(MOC)、掩蔽区域特征回归(MRFR)和图像文本匹配(ITM)。为了进一步提高预训练的质量,我们从Web上收集了一个大规模的弱监督图像-文本(LAIT)数据集。我们首先在这个数据集上对模型进行预训练,然后对概念字幕和SBU字幕进行第二阶段的预训练。实验结果表明,多阶段预训练策略优于单阶段预训练策略。我们还在图像检索和文本检索任务上对预先训练好的ImageBERT模型进行了调优和评估,并在MSCOCO和Flickr30k数据集上获得了最好的效果。

成为VIP会员查看完整内容
0
30

题目: Unsupervised pre-training for sequence to sequence speech recognition

摘要:

本文提出了一种新的编码-解码器序列到序列预训练模型(seq2seq)。我们的前训练方法分为两个阶段,分别是声学前训练和语言前训练。在声学预训练阶段,我们使用大量的语音来预训练编码器,通过预测掩蔽语音特征块及其上下文。在语言前训练阶段,我们使用单说话文本到语音(TTS)系统从大量的文本中生成合成语音,并使用合成的成对数据对译码器进行预训练。这种两阶段预训练方法将丰富的声学和语言知识整合到seq2seq模型中,有利于后续的自动语音识别(ASR)任务。在AISHELL-2数据集上完成无监督的预训练,我们将预训练模型应用于AISHELL-1和香港科技大学的多重配对数据比率。我们的相对错误率由AISHELL-1的38.24%降至7.88%,由香港科技大学的12.00%降至1.20%。此外,将我们的预训练模型应用到带有CALLHOME数据集的跨语言案例中。对于CALLHOME数据集中的所有六种语言,我们的预训练方法使模型始终优于基线。

作者:

徐波,研究员,1988年毕业于浙江大学,现任中国科学院自动化所所长 ,研究领域包括:多语言语音识别与机器翻译、多媒体网络内容智能处理、互动沉浸式3D互联网等。

成为VIP会员查看完整内容
0
22
小贴士
相关VIP内容
专知会员服务
42+阅读 · 2020年4月24日
专知会员服务
21+阅读 · 2020年3月6日
专知会员服务
42+阅读 · 2020年3月6日
相关论文
Dan Hendrycks,Xiaoyuan Liu,Eric Wallace,Adam Dziedzic,Rishabh Krishnan,Dawn Song
5+阅读 · 2020年4月13日
Varun Kumar,Ashutosh Choudhary,Eunah Cho
8+阅读 · 2020年3月4日
Attention Forcing for Sequence-to-sequence Model Training
Qingyun Dou,Yiting Lu,Joshua Efiong,Mark J. F. Gales
6+阅读 · 2019年9月26日
A Comparative Study on Transformer vs RNN in Speech Applications
Shigeki Karita,Nanxin Chen,Tomoki Hayashi,Takaaki Hori,Hirofumi Inaguma,Ziyan Jiang,Masao Someki,Nelson Enrique Yalta Soplin,Ryuichi Yamamoto,Xiaofei Wang,Shinji Watanabe,Takenori Yoshimura,Wangyou Zhang
3+阅读 · 2019年9月13日
Kazuki Irie,Albert Zeyer,Ralf Schlüter,Hermann Ney
5+阅读 · 2019年7月11日
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee,Wonjin Yoon,Sungdong Kim,Donghyeon Kim,Sunkyu Kim,Chan Ho So,Jaewoo Kang
5+阅读 · 2019年2月3日
Conditional BERT Contextual Augmentation
Xing Wu,Shangwen Lv,Liangjun Zang,Jizhong Han,Songlin Hu
8+阅读 · 2018年12月17日
Ken C. L. Wong,Tanveer Syeda-Mahmood,Mehdi Moradi
4+阅读 · 2018年8月15日
End-to-end Speech Recognition with Word-based RNN Language Models
Takaaki Hori,Jaejin Cho,Shinji Watanabe
3+阅读 · 2018年8月8日
Chung-Cheng Chiu,Tara N. Sainath,Yonghui Wu,Rohit Prabhavalkar,Patrick Nguyen,Zhifeng Chen,Anjuli Kannan,Ron J. Weiss,Kanishka Rao,Ekaterina Gonina,Navdeep Jaitly,Bo Li,Jan Chorowski,Michiel Bacchiani
6+阅读 · 2018年1月18日
Top