题目: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

摘要: 语言模型预先从各种来源的文本训练,形成了今天的自然语言处理的基础。鉴于这些广泛覆盖模型的成功,我们研究了将一个预训练的模型裁剪到目标任务的领域是否仍然有帮助。我们提出了一项涉及四个领域(生物医学和计算机科学出版物、新闻和评论)和八个分类任务的研究,表明在高资源和低资源环境下,领域内的第二阶段训练(领域自适应训练)可提高性能。此外,适应任务的未标记数据(任务自适应预训练)甚至可以提高域自适应预训练后的性能。最后,我们证明使用简单的数据选择策略来适应扩充的任务语料库是一种有效的替代方法,特别是在域自适应预训练资源可能不可用的情况下。总的来说,我们一致发现,多相适应性训练在任务效果方面提供了很大的提高。

成为VIP会员查看完整内容
0
36

相关内容

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

近些年 Transformers 在海量语料上进行自监督预训练再到下游各种NLP任务(当然也包括文本摘要)上微调的方案已取得巨大成功。但是,尚未有针抽象文本摘要(abstractive text summarization)定制预训练目标。此外,目前抽象文本摘要任务也缺乏跨领域的系统评价。为此,本文提出了一种新的自监督预训练目标:GSG(Gap Sentences Generation),以适配 Transformer-based 的 encoder-decoder 模型在海量文本语料上预训练。在 PEGASUS 中, 将输入文档中的“重要句子”删除或者遮蔽,再利用剩余的句子在输出中生成这些被删除或遮蔽的句子。从输入和输出看,该目标与文本摘要类似。本文以 12 个文本摘要数据集(包括新闻、科学、故事、使用说明、电子邮件、专利和立法议案)对最好的 PEGASUS 模型进行全面测试。实验结果是:PEGASUS 刷新 12 个数据集的 ROUGE 得分记录。另外,PEGASUS 模型在处理低资源摘要数据集也显示出惊人的性能,在 6 个数据集上仅以 1000 个样本就超过了之前的最先进结果。最后,本文还对 PEGASUS 模型生成的摘要结果进行人工评测,结果表明本文的模型在多个数据集上达到与人工摘要相媲美的性能。

成为VIP会员查看完整内容
0
16

OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史无前例!论文介绍了GPT-3这是一种由1750亿个参数组成的最先进的语言模型。论文由32位作者72页pdf。

最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调,在许多NLP任务和基准测试方面取得了巨大的进展。尽管这种方法在架构中通常与任务无关,但它仍然需要成千上万个特定于任务的实例微调数据集。相比之下,人类通常只需要几个例子或简单的指令就可以完成一项新的语言任务——这是目前的NLP系统仍然难以做到的。在这里,我们展示了扩展语言模型极大地提高了任务无关性、低命中率的性能,有时甚至达到了与先前最先进的微调方法的匹配性能。具体来说,我们训练了一个带有1750亿个参数的自回归语言模型GPT-3,比以前任何非稀疏语言模型都多10倍,并在小样本设置下测试了它的性能。对于所有任务,GPT-3的应用没有任何梯度更新或微调,任务和小样本演示指定纯粹通过与模型的文本交互。GPT-3在许多NLP数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,如整理单词、在句子中使用新单词或执行3位算术。同时,我们还确定了一些数据集,其中GPT-3的小样本学习仍然效果不佳,以及一些数据集,其中GPT-3面临着与大型web语料库上的训练有关的方法问题。最后,我们发现GPT-3可以生成新闻文章的样本,这些文章是人类评价者难以区分的。我们讨论了这个发现和一般的GPT-3的更广泛的社会影响。

GPT-3的主要目标是用更少的领域数据、且不经过精调步骤去解决问题。

为了达到上述目的,作者们用预训练好的GPT-3探索了不同输入形式下的推理效果。

这里的Zero-shot、One-shot、Few-shot都是完全不需要精调的,因为GPT-3是单向transformer,在预测新的token时会对之前的examples进行编码。

作者们训练了以下几种尺寸的模型进行对比:

实验证明Few-shot下GPT-3有很好的表现:

最重要的是,GPT-3在Few-shot设定下,在部分NLU任务上超越了当前Fine-tuning的SOTA。

成为VIP会员查看完整内容
0
36

文本生成在过去几年中取得了重大进展。然而,评估指标却落后了,因为最流行的选择(如BLEU 和ROUGE)可能与人类的判断关系不大。我们提出了BLEURT,一种基于BERT的学习评价指标,它可以用几千个可能有偏见的训练例子来模拟人类的判断。我们的方法的一个关键方面是一个新的预训练方案,它使用了数百万的综合例子来帮助模型泛化。BLEURT提供了过去三年WMT指标共享任务和WebNLG竞赛数据集的最先进的结果。与基于普通BERT的方法相比,即使在训练数据稀少且分布不均匀的情况下,它也能产生更好的结果。

成为VIP会员查看完整内容
0
16

基于卷积神经网络的方法在语义分割方面取得了显著的进展。然而,这些方法严重依赖于注释数据,这是劳动密集型的。为了解决这一限制,使用从图引擎生成的自动注释数据来训练分割模型。然而,从合成数据训练出来的模型很难转换成真实的图像。为了解决这个问题,以前的工作已经考虑直接将模型从源数据调整到未标记的目标数据(以减少域间的差距)。尽管如此,这些技术并没有考虑到目标数据本身之间的巨大分布差异(域内差异)。在这项工作中,我们提出了一种两步自监督域适应方法来减少域间和域内的差距。首先,对模型进行域间自适应;在此基础上,我们使用基于熵的排序函数将目标域分成简单和困难的两部分。最后,为了减小域内间隙,我们提出了一种自监督自适应技术。在大量基准数据集上的实验结果突出了我们的方法相对于现有的最先进方法的有效性。

成为VIP会员查看完整内容
0
49

最近的研究表明,预训练文本表示能够显著提高许多自然语言处理任务的性能。训练的中心目标是学习对后续任务有用的文本表示形式。然而,现有的方法是通过最小化代理目标(如语言建模的负日志可能性)来优化的。在这项工作中,我们介绍了一个学习算法,它直接优化模型学习文本表示的能力,以有效地学习下游任务。我们证明了多任务预训练和模型不可知的元学习之间有着内在的联系。BERT中采用的标准多任务学习目标是元训练深度为零的学习算法的一个特例。我们在两种情况下研究了这个问题:无监督的预训练和有监督的预训练,不同的预训练对象验证了我们的方法的通用性。实验结果表明,我们的算法对各种下游任务进行了改进,获得了更好的初始化。

成为VIP会员查看完整内容
0
30

在NLP中,“域内数据”的概念常常过于简单和模糊,因为文本数据在许多细微的语言方面存在差异,比如主题、风格或正式程度。此外,域标签很多时候是不可用的,这使得构建特定于域的系统变得很困难。我们证明了大量的预先训练的语言模型隐式地学习句子表示,这些句子表示在没有监督的情况下由域进行聚类——这表明文本数据中域的简单数据驱动定义。我们利用这一特性,提出了基于这些模型的域数据选择方法,这些方法只需要少量的域内单语数据。我们评估了我们的神经机器翻译的数据选择方法在五个不同的领域,在这些领域中,它们的表现优于现有的方法,包括BLEU和句子选择的精确度以及对oracle的召回率。

成为VIP会员查看完整内容
0
20

过去几年间,迁移学习给 NLP 领域带来了丰硕的成果,掀起了新一波的发展浪潮。 而迁移学习之所以如此有效,得益于其利用自监督任务(如语言建模或填充缺失词)在大量可用的无标注的文本数据上对模型进行预训练;接着,又在更小的标注数据集上对模型进行微调,从而让模型实现比单单在标注数据上训练更好得多的性能。 迁移学习在2018年出现的GPT、ULMFiT、ELMo以及 BERT等成果上初露锋芒,之后又在2019年大显身手,推动了领域内多种新方法的发展,其中就包括XLNet、RoBERTa、ALBERT、Reformer 和 MT-DNN 等等。 随着 NLP 领域的发展迅猛,评估其中的哪些发展成果最具有意义以及这些成果结合起来会发挥出怎样的效果,已不是易事。

论文地址:https://arxiv.org/abs/1910.10683

谷歌研究者在论文《使用统一的文本到文本的Transformer 来探索迁移学习的局限性》中,提出了一个大规模的实证评估,以确定哪些迁移学习技术效果最好,并大规模应用这些迁移学习技术来创建一个新模型,作者将这个新模型称之为文本到文本的迁移Transformer (Text-To-Text Transfer Transformer,T5)。与此同时,他们还引入了一个新的开源预训练数据集——Colossal Clean Crawled Corpus(C4)。 作者在C4数据集上对T5 模型进行预训练,让模型在许多 NLP 基准上都实现了最佳结果,与此同时还拥有足够的灵活性,进行微调后可应用到多个重要的下游任务上。

一、共享的文本到文本框架

创建了T5模型后,作者将所有的 NLP 任务都重新构建为统一的文本到文本格式,输入和输出都始终是文本字符串,与只能输出类标签或者输入范围的 BERT 式的模型截然不同。 该文本到文本的框架让他们可以在任何 NLP 任务上都使用相同的模型、损失函数以及超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)等等。 T5 模型甚至可以被应用到回归任务上,具体方式是训练 T5 模型来预测一个数字的字符串表示,而不是这个数字本身。

文本到文本框架图。对于每个任务,作者都考虑使用文本作为模型的输入,并训练模型生成一些目标文本。这让他们能够在多个任务上使用相同的模型、损失函数和超参数,包括翻译(绿色框)、语言可接受性(红色框)、句子相似性(黄色框)和文档摘要(蓝色框)。它也为实证评估中所包含的方法提供了一个标准的试验台。

二、大型预训练数据集(C4)

迁移学习的一个重要部分,便是用于模型预训练的未标注的数据集。为了准确地评估扩大预训练规模的效果,我们需要一个不仅高质量、多样化而且规模庞大的数据集。 现有的预训练数据集无法满足上述三点要求,例如来自维基百科的文本是高质量的,并且格式统一,但是规模相对而言较小,而从Common Crawl 网站上爬取的文本虽然规模较大并且多样化程度高,但是质量相当低。 为了满足这三点要求,作者开发了一个Colossal Clean Crawled Corpus数据集 (C4),该数据集是比维基百科大两个数量级的 Common Crawl 的清洁版本。他们的清洁处理过程涉及到删除重复数据、去除不完整的句子以及消除冒犯性或有噪音的内容。 这一过滤可以让模型在下游任务上获得更好的表现,与此同时额外规模的数据集也让模型在预训练期间不过拟合的情况下,增加其大小。 C4数据集地址: https://www.tensorflow.org/datasets/catalog/c4

三、迁移学习方法的系统研究

作者使用T5 文本到文本框架和新的预训练数据集C4,评估了在过去几年间为NLP 迁移学习引入的大量思想和方法。详尽的评估细节可前往论文查看,其中包括以下实验:

模型架构的实验中,他们发现编码—解码模型通常比“仅解码”的语言模型,性能更优; 预训练目标的实验中,他们证实了填空式的去噪目标(即训练模型来复原输入中缺失的词)的效果更好,并且其中最重要的因素是计算成本。 未标注数据集的实验中,他们展示了在域内数据集上训练模型是有益的,而在更小的数据集上对模型进行预训练则会导致不利的过拟合; 训练策略的实验中,他们发现多任务学习可以与“先预训练再微调”的方法相媲美,但是要求更细致地选择模型在每个任务上训练的频率。 模型规模的实验中,他们对比了不同大小的模型、训练时间以及集成模型的数量,以确定如何才能最好地利用固定的计算能力。

四、迁移方法+数据规模=性能最佳

为了探索NLP目前迁移学习的局限性,作者进行了最后一组实验,结合系统研究中的所有最佳方法,并利用Google Cloud TPU加速器进行了优化。 其中最大规模的模型有110亿个参数,在GLUE、Superglue、Team和CNN/Daily Mail基准测试中都能够达到SOTA。另外,在SuperGLUE 自然语言理解的基准测试中获得了接近人类水平的分数。

五、扩展到其他任务,表现也同样可喜

T5非常灵活,可以非常容易的进行修改,除了作者论文中的一些任务,在其他任务中也能取得了巨大的成功。例如在下面两个新任务中,模型表现也不错。

1、封闭数据问答

在阅读理解问题中往往可以使用文本到文本的框架。给模型提供上下文信息以及一个问题,训练其在上下文信息中找到问题的答案,例如可以向模型提供维基百科文章中关于康尼飓风的文本,并提问“康妮飓风在哪天发生?”然后训练模型,让其找到文章中的日期。事实上,作者使用这种方法在斯坦福问答数据集(SQuAD)中取得了最先进的结果。 在作者的Colab demo和后续论文中,其训练了T5在一个更加困难的封闭的环境中回答琐碎的问题,而且不需要接触任何外部知识。 换句话说,T在回答问题时只能用其在无监督预训练期间训练出的参数和知识。

在预训练期间,T5学习如何从C4文档中填充文本的丢失跨度。对模型进行了微调,在无需输入任何信息或者上下文的情况下,将其应用于已经封闭式问答。 T5非常擅长这项任务,其110亿参数模型分别在TriviaQA、Web问题(WebQuestions)和自然问题(Natural Questions)对50.1%、37.4%和34.5%的答案进行了精确生成。 为了客观看待此类问题,T5团队在酒吧琐事挑战(pub trivia challenge)与训练好的模型并肩作战,但不幸的是惨败而归。如下动图所示

2、完形填空 第二个任务是完形填空。像GPT-2这种大型语言模型在文本生产方面非常擅长。模型在经过训练之后,能够根据输入预测出下一个单词,如此将模型集成,便会产生非常创新性的应用程序,例如基于文本的游戏“AI地下城”。

T5使用的预训练目标与填空任务非常相似,在填空任务中,模型预测文本中缺少的单词,但是此目标是对“继续任务”(continuation task)的概括,因为填空任务中的空白有可能出现在文本的末尾。 为了完成目标,创建了一个名为“填充空白”的新任务,并要求模型用指定数量的单词替换空白。例如给模型输入:我喜欢吃花生酱和—4—三明治。大概会训练模型用4个单词进行填空。 用C4对模型进行了微调,效果良好,尤其是模型对缺失文本的预测非常棒!例如下列对于输入:“我喜欢花生酱和—N—三明治”,输出结果如下所示:

预训练模型: https://github.com/google-research/text-to-text-transfer-transformer#released-model-checkpoints

代码: https://github.com/google-research/text-to-text-transfer-transformer Colab Notebook https://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/master/notebooks/t5-trivia.ipynb

成为VIP会员查看完整内容
0
28

题目: Unsupervised pre-training for sequence to sequence speech recognition

摘要:

本文提出了一种新的编码-解码器序列到序列预训练模型(seq2seq)。我们的前训练方法分为两个阶段,分别是声学前训练和语言前训练。在声学预训练阶段,我们使用大量的语音来预训练编码器,通过预测掩蔽语音特征块及其上下文。在语言前训练阶段,我们使用单说话文本到语音(TTS)系统从大量的文本中生成合成语音,并使用合成的成对数据对译码器进行预训练。这种两阶段预训练方法将丰富的声学和语言知识整合到seq2seq模型中,有利于后续的自动语音识别(ASR)任务。在AISHELL-2数据集上完成无监督的预训练,我们将预训练模型应用于AISHELL-1和香港科技大学的多重配对数据比率。我们的相对错误率由AISHELL-1的38.24%降至7.88%,由香港科技大学的12.00%降至1.20%。此外,将我们的预训练模型应用到带有CALLHOME数据集的跨语言案例中。对于CALLHOME数据集中的所有六种语言,我们的预训练方法使模型始终优于基线。

作者:

徐波,研究员,1988年毕业于浙江大学,现任中国科学院自动化所所长 ,研究领域包括:多语言语音识别与机器翻译、多媒体网络内容智能处理、互动沉浸式3D互联网等。

成为VIP会员查看完整内容
0
22

题目: PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL

摘要: 预训练语言模型的最新突破表明了自监督学习在广泛的自然语言处理任务中的有效性。除了标准的句法和语义NLP任务外,预训练模型在涉及真实世界知识的任务上也取得了很强的改进,这表明大规模语言建模可能是一种隐含的知识获取方法。在这项工作中,我们进一步研究了BERT等预训练模型使用零镜头事实完成任务捕获知识的程度,此外,我们还提出了一个简单而有效的弱监督预训练目标,该目标明确地迫使模型包含关于真实世界实体的知识。用我们的新目标训练的模型在事实完成任务上有显著的改进。当应用于下游任务时,我们的模型在四个实体相关的问答数据集(即WebQuestions、TriviaQA、SearchQA和Quasar-T)上的平均F1改进为2.7,标准细粒度实体类型数据集(即FIGER)的平均精度提高为5.7。

作者简介:

Wenhan Xiong,加州大学圣塔芭芭拉分校计算机科学博士,主要研究结构化和非结构化文本数据的信息提取、问答和推理。https://xwhan.github.io/

William Yang Wang,加州大学圣塔芭芭拉分校自然语言处理小组和负责的机器学习中心的主任。他是加州大学圣塔芭芭拉分校计算机科学系的助理教授。他获得了卡内基梅隆大学计算机科学学院的博士学位。他对数据科学的机器学习方法有着广泛的兴趣,包括统计关系学习、信息提取、计算社会科学、语音和视觉。https://sites.cs.ucsb.edu/~william/

成为VIP会员查看完整内容
0
17

论文题目: Unsupervised Pre-training for Natural Language Generation

论文摘要: 最近,由于无监督预训练在促进自然语言理解(NLU)方面取得了令人惊讶的成功以及有效利用大规模未标记语料库的潜力,因此在计算语言学领域正变得越来越受欢迎。但是,无论NLU是否成功,当涉及自然语言生成(NLG)时,无监督预训练的功能只能被部分挖掘。 NLG特质的主要障碍是:文本通常是基于特定的上下文生成的,可能会因目标应用程序而异。结果,像在NLU场景中一样,设计用于预训练的通用体系结构是很难的。此外,在目标任务上学习时保留从预训练中学到的知识也是不容置疑的。这篇综述总结了近期在无监督的预训练下增强NLG系统的工作,特别着重于催化将预训练的模型集成到下游任务中的方法。根据它们处理上述障碍的方式,它们分为基于体系结构的方法和基于策略的方法。还提供了讨论,以提供这两种工作方式之间的进一步相互了解,一些有益的经验现象以及未来工作可能涉及的一些方向。

成为VIP会员查看完整内容
0
32
小贴士
相关VIP内容
专知会员服务
20+阅读 · 2020年4月7日
相关资讯
【自监督学习】OpenAI科学家一文详解自监督学习
产业智能官
14+阅读 · 2020年3月18日
OpenAI科学家一文详解自监督学习
新智元
8+阅读 · 2019年11月20日
NLP领域中的迁移学习现状
AI科技评论
4+阅读 · 2019年9月1日
BERT-预训练的强大
微信AI
45+阅读 · 2019年3月7日
3分钟看懂史上最强NLP模型BERT
新智元
16+阅读 · 2019年2月27日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
概览迁移学习在NLP领域中的应用
论智
3+阅读 · 2018年7月31日
干货|多重预训练视觉模型的迁移学习
机器学习算法与Python学习
4+阅读 · 2017年12月25日
相关论文
Roee Aharoni,Yoav Goldberg
11+阅读 · 2020年4月5日
Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
85+阅读 · 2020年3月18日
Yang Liu,Mirella Lapata
5+阅读 · 2019年8月22日
How to Fine-Tune BERT for Text Classification?
Chi Sun,Xipeng Qiu,Yige Xu,Xuanjing Huang
11+阅读 · 2019年5月14日
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee,Wonjin Yoon,Sungdong Kim,Donghyeon Kim,Sunkyu Kim,Chan Ho So,Jaewoo Kang
5+阅读 · 2019年2月3日
Kaiming He,Ross Girshick,Piotr Dollár
8+阅读 · 2018年11月21日
Document Image Classification with Intra-Domain Transfer Learning and Stacked Generalization of Deep Convolutional Neural Networks
Arindam Das,Saikat Roy,Ujjwal Bhattacharya,Swapan Kumar Parui
3+阅读 · 2018年6月26日
Jeremy Howard,Sebastian Ruder
3+阅读 · 2018年5月17日
Sibo Tong,Philip N. Garner,Hervé Bourlard
7+阅读 · 2018年1月23日
Jeremy Howard,Sebastian Ruder
4+阅读 · 2018年1月18日
Top