生成预训练变换器(GPT)在自然语言处理领域代表了一项显著的突破,它正在推动我们向开发能够以接近人类的方式理解和使用语言的机器发展。GPT基于变换器架构,这是一种为自然语言处理任务设计的深度神经网络。由于它们在自然语言处理任务上的卓越表现以及有效的对话能力,GPT在研究者和工业界得到了显著的关注,使它们成为自然语言处理及相关领域中最广泛使用和最有效的模型之一,这促使我们进行了这项调研。这篇综述为GPT提供了详细的概述,包括它的架构、工作过程、训练程序、启用技术以及它对各种应用的影响。在这篇综述中,我们也探讨了GPT的潜在挑战和限制。此外,我们讨论了可能的解决方案和未来的方向。总的来说,这篇文章旨在提供对GPT、启用技术、它们对各种应用的影响、新出现的挑战以及潜在解决方案的全面理解。 1. 引言

语言是人类交流的基石,对于塑造我们与世界的互动起着至关重要的作用。随着自然语言处理(NLP)的出现,我们与机器交互的方式发生了革命性的变化。NLP已经成为通信世界的游戏规则改变者,使人类能够以更自然的方式与机器互动。NLP的发展受到了互联网文本数据指数级增长的推动。多年来,NLP从简单的基于规则的系统发展到复杂的基于深度学习的模型。尽管有了进步,但由于人类语言的复杂性,自然语言理解和生成一直是NLP领域的一个挑战。然而,最近的进步为解决这些挑战开辟了新的途径。NLP的一项突破是GPT [1]的开发。GPT在OpenAI发布ChatGPT后走红,OpenAI是一家专注于开发AI技术的研究公司[2]。GPT是一个深度学习模型,它在大量的文本数据上进行预训练,可以针对特定的任务进行微调,如语言生成、情感分析、语言建模、机器翻译和文本分类。GPT使用的变换器架构是对NLP以往方法的重大进步,如RNN和CNN。它使用自注意力机制,使模型在生成下一个词时考虑整个句子的上下文,这提高了模型理解和生成语言的能力。解码器负责根据输入表示生成输出文本[3]。 GPT能够执行NLP中的广泛任务。其主要优势之一在于自然语言理解(NLU),其中它可以分析和理解文本的含义,包括识别句子中的实体和关系。它也擅长自然语言生成(NLG),这意味着它可以创建文本输出,如创作创新内容或以全面且有信息性的方式回答问题。另外,GPT也是代码生成器,可以编写各种语言(如Python或JavaScript)的编程代码。GPT也可以用于问答,这意味着它可以提供关于事实性主题的概括,或者根据输入文本创作故事。此外,GPT可以总结一段文本,如提供新闻文章或研究论文的简要概述,它也可以用于翻译,使得能够将文本从一种语言翻译为另一种语言。总的来说,GPT能够以高精度和准确度执行广泛的NLP任务,使其成为各种行业(包括金融、医疗保健、市场营销等)中的无价工具。随着NLP技术的不断进步,我们可以预见GPT和其他语言模型将变得更加复杂和强大,使我们能够更自然、更有效地与机器交流。 **A. 动机 **

GPT已经成为NLP领域的一种变革性技术,推动了广泛行业和应用的快速发展和增长。尽管GPT得到了广泛的采用,并有许多潜在的应用,但关于GPT的能力仍有许多需要探索和理解的地方。尽管在与学术和图书馆[4]、教育[5]、GPT模型[6]、银行和企业通信[7]、chatGPT及其版本的进步[8]、以及生成AI[9]相关的文献中有关于GPT的研究,但并没有现有的评论致力于对GPT进行全面的调查。因此,有必要进行一项全面的评论,重点是GPT的架构、启用技术、潜在应用、新出现的挑战、有趣的项目和未来的方向。这些限制促使我们进行了这项审查。因此,这篇审查不仅将帮助这个领域的研究者和实践者更好地理解GPT,而且在进行研究时,还将提供关于其潜在应用和主要限制的宝贵见解。 在这篇关于GPT的综述中,我们使用各种可靠的来源进行了深入的文献审查。我们的搜索主要集中在经过同行评审的期刊,以及来自知名国内和国际会议、研讨会、书籍、座谈会和期刊的高质量文章。为了确保我们的来源的可信度,我们参考了像Google Scholar和arXiv这样知名的档案库,以及来自IEEE、Springer、Elsevier、Taylor & Francis和Wiley等顶级数据库的出版物。为了找到相关的GPT引用和出版物,我们使用了如NLPGPT、GPT架构、DL for GPT、Pretraining GPT、Fine-tuning AI GPT和GPT垂直应用等关键词。然后,我们根据所有检索到的文章的标题进行筛选,排除了任何质量较差的论文。接下来,我们审查了剩下的文章的摘要,以确定它们的贡献。在我们的文献审查的最后一步,我们提取了分析所需的必要数据。通过遵循这些步骤,我们确保了我们的研究基于高质量和可信的来源。

2. GPT

A. GPT演化

GPT模型经历了NLP技术中的多次变化和突破。以下是GPT模型发展中的一些重大转折点:在GPT之前,NLP模型已经在与特定任务相关的大量标注数据上进行了训练。这有一个重大的缺点,因为很难获得用于精确训练模型所需的标注数据量。由于NLP模型被限制在特定的数据集上,所以它们无法完成训练集以外的任务。为了解决这些限制,OpenAI提供了一个名为GPT-1的生成式语言模型,该模型使用未标记的数据创建,然后提供给用户进行微调,以完成后续的任务,如情感分析、分类和问答[18]。这表明该模型试图根据输入产生适当的响应,而且用于训练模型的数据没有标记[19]。图2显示了从1960年创建的Eliza到2022年更为当前的ChatGPT,几个预训练模型的演变时间线。GPT-1是第一个能够阅读文本并回答查询的模型[20]。OpenAI在2018年发布了GPT-1。GPT1是AI发展的一个重要步骤,因为它使计算机能够比以前更自然地理解文本材料。这种生成性语言模型能够学习各种各样的连接,并在连续的文本和长篇大论的语料库上获得大量知识[21]。这发生在在大型BooksCorpus数据集上训练之后。在设计方面,GPT-1使用一个12层解码器架构的变换器,带有自我注意机制进行训练。GPT-1能够在不同任务上执行零射击性能,这是由于其预训练而取得的一项重大成功。这种能力证明,当将生成性语言建模与成功的预训练思想结合起来时,可以用来推广模型。以TL为基础,GPT模型发展成为一种强大的工具,可以在微调最少的情况下执行NLP任务[22]。它为其他模型使用更大的数据集和参数在生成性预训练中取得更大的进步铺平了道路[18]。

为了在2019年后期创建一个更好的语言模型,OpenAI使用更大的数据集和更多的参数创建了GPT-2。GPT-2的模型设计和执行是一些关键的进步[23]。它拥有15亿个参数,是GPT-1(1.17亿个参数)的10倍,它的参数和数据量也是GPT-1的10倍[21]。通过仅使用原始文本作为输入,并利用很少或没有训练样本,它在解决与翻译、总结等相关的各种语言任务方面非常有效。在各种下游任务数据集上对GPT-2进行评估,发现它在识别长距离关系和预测句子方面表现出色,显著提高了准确性[24]。最近的GPT模型迭代版本是GPT-3。这是由OpenAI创建的一个大型语言预测和生成模型,可以生成源文本的长篇段落。GPT-3最终成为OpenAI的突破性AI语言软件。简单来说,它是一种可以自己创建行的软件,这些行非常独特,几乎听起来像是由人类编写的[25]。GPT-3程序目前通过云基础设施API提供有限的访问,需要访问权限来调查其功能。自从它的首次亮相以来,它已经产生了一些有趣的应用。其容量约为1750亿个参数,比GPT-2大100倍,这是一个关键优势。它使用从大型内容存档和互联网收集的5000亿词的语料库"Common Crawl"进行教学[26]。其其他值得注意和意想不到的能力是进行基本的数学运算,编写代码片段,和执行聪明的任务。因此,NLP模型可以通过更快地响应请求和精确地保持最佳实践,同时减少人为错误,来帮助企业[27]。由于其复杂性和大小,许多学者和作家都将其称为最终的黑箱AI方法。由于执行推理的高成本和不便,以及亿参数的大小使其资源密集型,因此很难在工作中实践[24]。GPT-4被命名为GPT-3的继任者。与此同时,OpenAI已经秘密地发布了几个基于GPT-3.5的AI模型,这是GPT-3的更新版本[28]。

GPT-3.5是在文本和代码的混合上进行训练的。它从互联网收集的大量数据中学习了单词、句子和各种组件之间的关系,这些数据包括成千上万的维基百科条目、社交媒体帖子和新闻项目。OpenAI利用GPT-3.5开发了几个定制的系统,以完成特定的工作[26]。它从网上收集了大量数据,包括成千上万的维基百科条目、社交媒体帖子和新闻项目,并利用这些信息学习了句子、单词和单词组成部分之间的关系[29]。 OpenAI的GPT模型的最新版本是GPT-4,这是一个多模态的大型语言模型。它于2023年3月14日推出,并通过ChatGPT Plus向公众提供有限的访问。需要排队等待获得商业API的访问权限[10]。GPT-4在预训练阶段,使用公共数据和“来自第三方供应商的许可数据”,预测下一个词。然后,基于人类和AI的输入,通过强化学习进行调整,以实现人类对齐和政策符合。与GPT-3的上下文窗口只有4096和2049个tokens不同,该团队创建了两个版本的GPT-4,其上下文窗口分别为8192和32768个tokens。

B. GPT模型架构

GPT模型基于用于NLP任务的神经网络,如语言建模,文本分类和文本生成。GPT模型的架构基于变压器模型[30]。Transformer模型使用自注意机制处理可变长度的输入序列,使其非常适合NLP任务。GPT通过用解码器块替代编码器-解码器块简化了架构。GPT模型采用Transformer模型,并使用无监督学习技术在大量文本数据上进行预训练。预训练过程涉及预测序列中给定前面单词的下一个单词,这是一项称为语言建模的任务。这种预训练过程使模型能够学习可以针对特定下游任务进行微调的自然语言表示[31]。

C GPT 模型如何工作

GPT模型通过使用Transformer这种神经网络架构处理自然语言文本的输入序列来工作[38]。GPT模型使用无监督学习技术在大量的文本输入上预训练这种Transformer架构[39]。在预训练过程中,模型获得了根据前面的词预测序列中下一个词的能力。语言建模是一种过程,使模型能够发现训练数据中词与其上下文之间的统计关系。图5展示了GPT操作的各个阶段。第一步包括有监督的微调,第二步涉及对输入产生最优反应,第三步涉及近似策略优化和强化学习。预训练后,模型可以针对特定任务进行微调,如文本分类或文本生成。在微调过程中,模型在特定于手头工作的较小数据集上进行训练,并改变模型的参数以最大化该任务的性能[8]。图3展示了GPT的一般Transformer架构。当用于文本生成时,GPT模型通过预测基于之前生成的词的系列中的下一个词来创建文本。根据其被修改的方式,模型可以生成与输入文本相似的文本,或者符合某种主题或风格的文本。图4展示了GPT模型的Transformer架构和用于微调不同任务的输入变换。

D. GPT版本比较

GPT模型有几个版本,每个版本都有自己的特性和功能。表III列出了各种GPT模型版本的比较。表中展示了以下细节,如GPT模型的发布年份、参数、生成的标记、输入类型、每个模型的特性、每个模型的缺点,以及每个模型的大小。生成型AI(GAI)模型有不同的类型,如单模态、交叉模态和多模态。第一种类型是单模态,依赖于单一类型的输入,如文本或图像。另一方面,交叉模态可以处理多种类型的输入并将它们关联起来。多模态是最复杂的AI类型,因为它可以处理和整合来自多种模态的信息,如语音、文本、图像,甚至是与环境的物理交互。GPT只采用单模态和多模态类型,其中ChatGPT被认为是单模态,而GPT-4是多模态。图6是一个插图,区分了单模态、交叉模态和多模态生成AI模型。 总的来说,GPT模型在NLP方面表现出了出色的性能,通过增强每一次迭代和其前身的能力。然而,每个模型也有自己的限制和缺点,如输出控制的限制、缺乏多样化的数据和伦理问题。在为特定任务选择GPT模型时,研究者和开发者应谨慎考虑这些因素[40]。具体来说,本节描述了GPT的演变、架构,并比较了不同版本和类型的GPT。

III. 使能技术

GPT是多种技术的汇聚。它借助了最新的技术,如大数据、人工智能、云计算、EC、5G及以后的网络,以及人机交互。在这一部分,我们将提供与GPT相关的启用技术的概述。构成GPT模型的主要技术在图7中展示。

IV. GPT模型对各种应用的影响

GPT已经取得了显著的进步,它的影响正在教育、医疗保健、工业、农业、旅游和运输、电子商务、娱乐、生活方式、游戏、市场营销和金融等各个行业中被感知到。这一部分将提供有关GPT模型在上述应用中的影响的宝贵见解,如图8所示。

本节将介绍使用GPT模型技术开发的用于上述部分中提到的不同应用的激动人心的项目。表IV,表V显示了这些项目的不同级别,以及用于比较他们在许多实际应用中的能力的不同参数。

VI. 开放的研究问题和未来方向

本节强调了与实施和采用可持续GPT模型相关的各种开放研究问题。它还为GPT开发领域的研究人员提供了对未来研究方向的深入了解。图9概述了在使用GPT模型时可能出现的许多问题,以及需要考虑的各种未来方法,以便有效地使用GPT模型。

VII.结论

GPT和其他大型语言模型的影响深远而深刻。随着这些技术的不断发展和改进,它们有可能改变我们与技术和彼此互动的方式。从个性化推荐和客户服务到语言翻译和文本生成,可能性是无穷的。然而,就像任何技术一样,必须解决可能出现的道德和社会问题。随着我们越来越依赖这些语言模型,我们必须确保我们正在负责任地使用这些工具,并考虑它们对整个社会的影响。这包括与训练模型所使用的数据偏见、保护隐私和安全、理解人类创造力的含义以及可能对就业和工作流动的影响等相关的挑战。我们需要继续评估和反思GPT和其他语言模型的影响,以确保它们的使用方式对整个社会都有益。通过这样做,我们可以帮助确保这些技术被充分利用,同时最大程度地减少它们可能产生的任何负面影响。

成为VIP会员查看完整内容
133

相关内容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序 [1] ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文任务。 [1] https://openai.com/blog/chatgpt/
大模型时代的自然语言处理:挑战、机遇与发展
专知会员服务
122+阅读 · 2023年6月17日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
171+阅读 · 2023年2月13日
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
90+阅读 · 2021年11月4日
未来十年,AI 语音识别将朝着这五个方向发展
THU数据派
1+阅读 · 2022年9月2日
一文浏览2018-2019年最值得关注的AI进展
英伟达NVIDIA中国
20+阅读 · 2019年5月9日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
自然语言处理中注意力机制综述
黑龙江大学自然语言处理实验室
11+阅读 · 2019年2月26日
一文了解自然语言处理神经史
云栖社区
11+阅读 · 2018年12月2日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
NLP深度学习:近期趋势的总体概述
论智
130+阅读 · 2018年9月22日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
319+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
28+阅读 · 2021年9月26日
VIP会员
相关VIP内容
大模型时代的自然语言处理:挑战、机遇与发展
专知会员服务
122+阅读 · 2023年6月17日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
171+阅读 · 2023年2月13日
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
90+阅读 · 2021年11月4日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员