最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

【导读】预训练模型是当下的研究热点之一。本文对综述了近年来与T-PTLMs相关的研究工作，涵盖了基本概念、分类体系。

引言

基于Transformer的预训练语言模型(T-PTLMs)在几乎所有的自然语言处理任务中都取得了巨大的成功。这些模型的发展始于GPT和BERT。这些模型建立在Transformer、自监督学习和迁移学习的基础上。基于转换的PTLMs通过自监督学习从大量文本数据中学习通用语言表示，并将这些知识转移到下游任务中。这些模型为下游任务提供了良好的背景知识，避免了对下游模型从头开始的训练。在这篇全面的综述论文中，我们首先对自监督学习做一个简要的概述。接下来，我们解释了各种核心概念，如预训练、预训练方法、预训练任务、嵌入和下游适应方法。接下来，我们介绍了 T-PTLMs的一个新分类，然后简要概述了各种基准测试，包括内在和外在的。我们总结了与 T-PTLMs一起工作的各种有用的库。最后，提出了进一步完善这些模型的研究方向。我们坚信，这篇全面的综述论文将为了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新动态提供很好的参考。

摘要

如GPT-1 [1]， BERT [2]， XLNet [3]， RoBERTa [4]， ELECTRA [5]， T5 [6]， ALBERT [7]，BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功，因为它们能够从大量未标记的文本数据中学习通用语言表征，然后将这些知识转移到下游任务中。在早期，NLP系统大多是基于规则的，后来被机器学习模型所取代。机器学习模型需要特征工程，这需要领域专业知识，也是一个耗时的过程。gpu和Word2Vec[10]和Glove[11]等更好的计算机硬件的发展，增加了深度学习模型(如CNN[12]和RNN[13]、[14])用于构建NLP系统的使用。这些深度学习模型的主要缺点是需要从头开始训练模型，除了单词嵌入。从头开始训练模型需要大量已标记的实例，生成这些实例的代价是昂贵的。然而，我们希望模型仅使用少数标记实例就能表现良好。迁移学习[15]允许在源任务中学习的知识重用，从而在目标任务中很好地执行。在这里，目标任务应该与源任务类似。基于迁移学习的思想，计算机视觉研究人员使用ImageNet[20]，[21]等大规模标记数据集训练了大型CNN模型[16]-[19]。这些模型学习在所有任务中都通用的图像表示。预训练的大型CNN模型通过包含少量特定任务层来适应下游任务，然后在目标数据集[22]上进行微调。由于预先训练好的CNN模型为下游模型提供了良好的背景知识，他们在许多CV任务[18]，[23]中获得了巨大的成功。

像CNN和RNN这样的深度学习模型在建模长期上下文和学习带有局部偏差[24]的单词表示方面存在困难。此外，由于RNN按顺序处理输入，即逐字处理，并行计算机硬件的利用率受到限制。为了克服现有深度学习模型的这些缺陷，Vaswani等人[25]提出了一种完全基于自注意的深度学习模型，称为Transformer。与RNN相比，自注意允许更多的并行化，并且可以很容易地建模长期上下文，因为每个令牌都关注输入序列[25]中的所有令牌。Transformer包含编码器和解码器层的堆栈。在编码器和解码器层的帮助下，Transformer可以学习复杂的语言信息。在NLP域中生成大量标记数据是一个非常昂贵和耗时的过程。但是，很容易获得大量未标记的文本数据。NLP研究社区对基于CNN的计算机视觉预训练模型的成功印象深刻，已经开发了结合Transformer和自监督学习的能力的T-PTLMs。自监督学习允许Transformer基于一个或多个预训练任务提供的伪监督进行学习。

GPT和BERT分别是第一个基于transformer 解码器和编码器层开发的T-PTLMs。在GPT和BERT的基础上，提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。这里XLNet, RoBERTa, ELECTRA和ALBERT是对BERT模型的改进，而T5, BART和PEGAUSUS是基于编码器-解码器的模型。Kaplan等人[26]表明，T-PTLMs的表现可以通过增加模型的大小来提高。这一观察触发了大规模T-PTLMs的发展，如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含数十亿个参数的T-PTLMs。继T-PTLMs在通用英语领域的成功之后，T-PTLMs也被开发用于其他领域，如金融[31]，法律[32]，[33]，新闻[34]，编程[35]-[39]，对话[40]，网络[41]，学术[42]-[44]和生物医学[45]-[48]。TPTLMs还支持迁移学习，因为这些模型可以通过对目标数据集进行微调或即时调整来适应下游任务。本文综述了近年来与T-PTLMs相关的研究工作。我们将综述总结为