【导读】预训练模型是当下的研究热点之一。本文对综述了近年来与T-PTLMs相关的研究工作,涵盖了基本概念、分类体系。

引言

基于Transformer的预训练语言模型(T-PTLMs)在几乎所有的自然语言处理任务中都取得了巨大的成功。这些模型的发展始于GPT和BERT。这些模型建立在Transformer、自监督学习和迁移学习的基础上。基于转换的PTLMs通过自监督学习从大量文本数据中学习通用语言表示,并将这些知识转移到下游任务中。这些模型为下游任务提供了良好的背景知识,避免了对下游模型从头开始的训练。在这篇全面的综述论文中,我们首先对自监督学习做一个简要的概述。接下来,我们解释了各种核心概念,如预训练、预训练方法、预训练任务、嵌入和下游适应方法。接下来,我们介绍了 T-PTLMs的一个新分类,然后简要概述了各种基准测试,包括内在和外在的。我们总结了与 T-PTLMs一起工作的各种有用的库。最后,提出了进一步完善这些模型的研究方向。我们坚信,这篇全面的综述论文将为了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新动态提供很好的参考。

摘要

如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因为它们能够从大量未标记的文本数据中学习通用语言表征,然后将这些知识转移到下游任务中。在早期,NLP系统大多是基于规则的,后来被机器学习模型所取代。机器学习模型需要特征工程,这需要领域专业知识,也是一个耗时的过程。gpu和Word2Vec[10]和Glove[11]等更好的计算机硬件的发展,增加了深度学习模型(如CNN[12]和RNN[13]、[14])用于构建NLP系统的使用。这些深度学习模型的主要缺点是需要从头开始训练模型,除了单词嵌入。从头开始训练模型需要大量已标记的实例,生成这些实例的代价是昂贵的。然而,我们希望模型仅使用少数标记实例就能表现良好。迁移学习[15]允许在源任务中学习的知识重用,从而在目标任务中很好地执行。在这里,目标任务应该与源任务类似。基于迁移学习的思想,计算机视觉研究人员使用ImageNet[20],[21]等大规模标记数据集训练了大型CNN模型[16]-[19]。这些模型学习在所有任务中都通用的图像表示。预训练的大型CNN模型通过包含少量特定任务层来适应下游任务,然后在目标数据集[22]上进行微调。由于预先训练好的CNN模型为下游模型提供了良好的背景知识,他们在许多CV任务[18],[23]中获得了巨大的成功。

像CNN和RNN这样的深度学习模型在建模长期上下文和学习带有局部偏差[24]的单词表示方面存在困难。此外,由于RNN按顺序处理输入,即逐字处理,并行计算机硬件的利用率受到限制。为了克服现有深度学习模型的这些缺陷,Vaswani等人[25]提出了一种完全基于自注意的深度学习模型,称为Transformer。与RNN相比,自注意允许更多的并行化,并且可以很容易地建模长期上下文,因为每个令牌都关注输入序列[25]中的所有令牌。Transformer包含编码器和解码器层的堆栈。在编码器和解码器层的帮助下,Transformer可以学习复杂的语言信息。在NLP域中生成大量标记数据是一个非常昂贵和耗时的过程。但是,很容易获得大量未标记的文本数据。NLP研究社区对基于CNN的计算机视觉预训练模型的成功印象深刻,已经开发了结合Transformer和自监督学习的能力的T-PTLMs。自监督学习允许Transformer基于一个或多个预训练任务提供的伪监督进行学习。

GPT和BERT分别是第一个基于transformer 解码器和编码器层开发的T-PTLMs。在GPT和BERT的基础上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。这里XLNet, RoBERTa, ELECTRA和ALBERT是对BERT模型的改进,而T5, BART和PEGAUSUS是基于编码器-解码器的模型。Kaplan等人[26]表明,T-PTLMs的表现可以通过增加模型的大小来提高。这一观察触发了大规模T-PTLMs的发展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含数十亿个参数的T-PTLMs。继T-PTLMs在通用英语领域的成功之后,T-PTLMs也被开发用于其他领域,如金融[31],法律[32],[33],新闻[34],编程[35]-[39],对话[40],网络[41],学术[42]-[44]和生物医学[45]-[48]。TPTLMs还支持迁移学习,因为这些模型可以通过对目标数据集进行微调或即时调整来适应下游任务。本文综述了近年来与T-PTLMs相关的研究工作。我们将综述总结为

  • 我们将简要介绍SSL,它是开发T-PTLMs的支柱(第2节)。

  • 我们解释了与T-PTLMs相关的各种核心概念,如预训练、预训练方法、预训练任务、嵌入和下游适应方法(第3节)。

  • 我们提出了一个新的分类方法来分类各种T-PTLMs。这种分类法基于四个视角,即预训练语料库、体系结构、SSL类型和扩展(第4节)。

  • 我们提出了一种新的分类法来对各种下游适应方法进行分类,并对每一种方法进行详细解释(第5节)。

  • 我们简要概述了评估T-PTLMs进展的各种基准,包括内在的和外在的(第6节)。

  • 我们简要概述了各种库,从Huggingface transformer到Transformer-interpret,这些库对tptlm的工作很有用(第7节)。

  • 我们简要讨论了一些未来的研究方向,这些方向将推动研究团体进一步改进模型(第8节)。

成为VIP会员查看完整内容
102

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
44+阅读 · 2021年9月27日
最新《计算机视觉持续学习进展》综述论文,22页pdf
专知会员服务
70+阅读 · 2021年9月25日
专知会员服务
80+阅读 · 2021年6月20日
最新「注意力机制」大综述论文,66页pdf569篇文献
专知会员服务
201+阅读 · 2021年4月2日
专知会员服务
112+阅读 · 2020年12月9日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
【论文笔记】NLP 预训练模型综述
深度学习自然语言处理
8+阅读 · 2020年5月14日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
7+阅读 · 2019年2月27日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
预训练模型迁移学习
极市平台
10+阅读 · 2018年11月6日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
2017深度学习NLP进展与趋势
云栖社区
7+阅读 · 2017年12月17日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
102+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
22+阅读 · 2020年9月16日
VIP会员
相关VIP内容
相关资讯
【论文笔记】NLP 预训练模型综述
深度学习自然语言处理
8+阅读 · 2020年5月14日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
7+阅读 · 2019年2月27日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
预训练模型迁移学习
极市平台
10+阅读 · 2018年11月6日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
2017深度学习NLP进展与趋势
云栖社区
7+阅读 · 2017年12月17日
相关论文
Arxiv
20+阅读 · 2021年9月21日
Arxiv
102+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
22+阅读 · 2020年9月16日
微信扫码咨询专知VIP会员