GPT-4开启AGI之门？微软最新刷屏154页《通用人工智能的火花:GPT-4的早期实验》报告，探究去向AGI之路（附中文版）

GPT-4 打开通用人工智能之门？

人工智能(AI)研究人员一直在开发和完善大型语言模型(LLM)，这些模型在各种领域和任务中表现出非凡的能力，挑战了我们对学习和认知的理解。OpenAI开发的最新模型GPT-4是使用前所未有的计算和数据规模进行训练的。本文报告了对早期版本的GPT-4的调研，当时它仍由OpenAI积极开发。我们认为(这个早期版本)GPT-4是新一代LLM的一部分(例如ChatGPT和谷歌的PaLM)，它们比以前的人工智能模型表现出更多的通用智能。讨论了这些模型不断提高的能力和影响。**证明了GPT-4除了对语言的掌握外，还可以解决跨越数学、编码、视觉、医学、法律、心理学等新颖和困难的任务，而不需要任何特别的提示。此外，在所有这些任务中，GPT-4的性能惊人地接近人类水平的性能，并经常大大超过之前的模型，如ChatGPT。**鉴于GPT-4能力的广度和深度，我们相信它可以被合理地视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在对GPT-4的探索中，特别强调了发现其局限性，并讨论了向更深入、更全面的AGI版本前进的挑战，包括可能需要追求一种超越下一个词预测的新范式。最后，反思了最近技术飞跃的社会影响和未来的研究方向。

**1. 引言 **

智力是一个多方面的、难以捉摸的概念，长期以来一直挑战着心理学家、哲学家和计算机科学家。1994年，52名心理学家组成的小组在一篇关于智力科学的社论中签署了一个宽泛的定义，试图抓住它的本质。小组将智力定义为一种非常普遍的心智能力，其中包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力。这一定义意味着智力并不局限于特定的领域或任务，而是包含了广泛的认知技能和能力。构建一个显示出1994年共识定义所捕获的那种通用智能的人工系统，是人工智能研究的一个长期而雄心勃勃的目标。在早期的著作中，人工智能(AI)研究现代学科的创始人提出了一系列理解智能的理想目标[MMRS06]。几十年来，人工智能研究人员一直在追求智能的原则，包括可泛化的推理机制(例如，[NSS59]， [LBFL93])和包含大型常识语料库的知识库的构建[Len95]。然而，人工智能研究的许多最新成功可以被描述为狭隘地专注于明确定义的任务和挑战，例如下国际象棋或围棋，这些分别在1996年和2016年被人工智能系统掌握。在20世纪90年代末和21世纪初，开发更通用的AI系统的呼声越来越高(例如，[SBD+96])，该领域的学术界试图确定可能用于更通用智能系统(例如，[Leg08, GHT15])的原则。“通用人工智能”(AGI)一词在21世纪初流行开来(见[Goe14])，以强调从“狭义人工智能”(如正在开发的集中的、现实世界的应用程序所示)转向更广泛的智能概念的愿望，唤起了早期人工智能研究的长期愿望和梦想。我们使用AGI来指的是显示上述1994定义中所捕获的广泛智能能力的系统，以及这些能力达到或超过人类水平的额外要求，这可能隐含在共识组的工作中。然而，我们注意到，AGI没有一个被广泛接受的单一定义，我们在结论部分讨论了其他定义。

过去几年人工智能研究中最显著的突破是通过大型语言模型(LLMs)实现的自然语言处理的进步。这些神经网络模型**基于Transformer架构[VSP+17]，并在大量Web-文本数据语料库上进行训练，其核心是使用自监督目标来预测部分句子中的下一个单词。**本文报告了由OpenAI开发的一个新的LLM，它是GPT-4的早期和非多模态版本[Ope23]，根据1994年的定义，显示出许多智能的特征。尽管纯粹是一个语言模型，但这个早期版本的GPT-4在各种领域和任务上表现出了卓越的能力，包括抽象、理解、视觉、编码、数学、医学、法律、理解人类的动机和情感等。在OpenAI的早期开发中，我们使用纯自然语言查询(提示)与GPT-4进行交互。在图1.1中，我们展示了GPT-4输出的一些初步示例，包括用一首诗的形式证明无穷素数，用TiKZ(一种用于在LATEX中创建图形的语言)画一只独角兽，用Python创建一个复杂的动画，以及解决一个高中水平的数学问题。它很容易完成所有这些任务，并且产生的输出基本上与人类的输出没有区别(甚至比人类的输出更好)。还将GPT-4的性能与之前的LLM进行了比较，其中最著名的是ChatGPT，它是GPT-3 [BMR+20]的微调版本。在图1.2中，我们展示了向ChatGPT请求无限素数诗和TikZ独角兽图的结果。虽然系统在两个任务上的表现都很出色，但与GPT-4的输出无法比较。这些初步观察结果将在本文中在各种任务中重复出现。GPT-4能力的通用性，与跨越广泛领域的众多能力的结合，以及它在广泛的任务范围上达到或超过人类水平的性能，使我们可以轻松地说，GPT-4是迈向AGI的重要一步。

我们声称GPT-4代表了AGI的进步，但这并不意味它所做的事情上是完美的，或者它接近于能够做人类可以做的任何事情(这是AGI的通常定义之一;有关这方面的更多信息，请参阅结论部分)，或者它有内在的动机和目标(AGI某些定义中的另一个关键方面)。事实上，即使在1994年智能定义的受限背景下，也不完全清楚GPT-4可以在智能的某些轴上走多远，例如规划(见第8节)，而且可以说它完全没有“快速学习并从经验中学习”这一部分，因为模型没有不断更新(尽管它可以在一个会话中学习，例如见第5节)。总的来说，GPT-4仍然有许多局限性和偏差，我们在下面详细讨论，这些也在OpenAI的报告[Ope23]中有所涉及。特别是它仍然遭受的一些证据确凿的缺点LLM如幻觉(MNBM20)的问题(见图1.8)或犯基本的算术错误CKB + 21,然而它也克服一些基本的障碍,如获得许多非语言功能(例如,它解决了大部分的LLM [MIB + 23]中描述失效模式,并取得了很大的进步在常识性的,参见图1.7第一个例子和附录a)。这突出了一个事实，尽管GPT-4在许多任务上都达到或超过了人类的水平，但总体上它的智能模式显然与人类不同。然而，几乎可以肯定的是，GPT-4只是迈向一系列越来越普遍的智能系统的第一步，事实上，在我们的测试过程中，GPT-4本身已经得到了改进，参见图1 - 3，了解在一个月的训练过程中独角兽绘图的演变2。然而，即使作为第一步，GPT-4也挑战了大量广泛接受的关于机器智能的假设，并展示了涌现的行为和能力，这些行为和能力的来源和机制目前还难以精确地识别(再次参阅结论部分以了解有关此的更多讨论)。撰写本文的主要目标是分享我们对GPT-4的能力和限制的探索，以支持我们的评估，即技术飞跃已经实现。我们相信，GPT-4的智能标志着计算机科学及其他领域的真正范式转变。

1.1 GPT-4智能的研究方法

我们如何衡量一个在未知但极其庞大的web-text数据语料库上训练的LLM的智能?机器学习中标准的方法是在一组标准基准数据集上评估系统，确保它们独立于训练数据，并且覆盖一系列任务和领域。这种方法旨在将真正的学习与单纯的记忆分开，并有丰富的理论框架支持[SSBD14, MRT18]。然而，这种方法并不一定适用于研究GPT-4，原因有二。首先，由于我们无法访问其大量训练数据的全部细节，我们必须假设它可能已经看到了每个现有的基准，或至少一些类似的数据。例如，似乎GPT-4知道最近提出的BIG-bench [SRR+22](至少GPT-4知道BIG-bench中的canary GUID)。当然，OpenAI本身可以访问所有的训练细节，因此他们的报告[Ope23]包含许多详细的基准测试结果。然而，超越传统基准的第二个原因可能更重要:GPT4智能的关键方面之一是它的通用性，表面上理解和连接任何主题的能力，以及执行超出狭窄AI系统典型范围的任务的能力。GPT-4一些最令人印象深刻的表现是在不承认单一解决方案的任务上，例如编写图形用户界面(GUI)或帮助人类对一些与工作有关的问题进行头脑风暴。也可以设计此类生成式或交互式任务的基准，但评估的指标成为一个挑战(例如，有关NLP这一活跃研究领域的一些最新进展，请参见[PSZ+21])。我们注意到，[Cho19]也对衡量AI系统的标准方法提出了批评，其中提出了一个新的基准来评估通用智能。由于前面提到的原因，以及该基准本质上是可视化的，因此更适合[Ope23]中描述的GPT-4的多模态版本，我们没有在后一个基准上测试GPT-4。为克服上述限制，本文提出一种研究GPT-4的不同方法，更接近传统心理学而不是机器学习，利用人类的创造力和好奇心。本文旨在生成新的和困难的任务和问题，令人信服地证明GPT-4远远超出了记忆，并且它对概念、技能和领域有深刻和灵活的理解([CWF+22]中也提出了某种类似的方法)。探讨了GPT-4的反应和行为，以验证其一致性、连贯性和正确性，并揭示其局限性和偏差。我们承认这种方法有些主观和非正式，它可能无法满足科学评估的严格标准。然而，我们相信这是欣赏GPT-4非凡的能力和挑战的有用和必要的第一步，这样的第一步为开发更正式和全面的方法来测试和分析具有更通用智能的AI系统开辟了新的机会。

为了说明我们评估GPT-4智能的方法，让我们考虑图1.1中与GPT-4交互的前两个示例。第一个例子是要求GPT-4以一首诗的形式证明质数的无限。这是一项具有挑战性的任务，需要结合初等数学推理、诗意表达和自然语言生成。第二个例子是让GPT-4在TiKZ中画一只独角兽。这是另一项具有挑战性的任务，需要结合视觉想象力和编码技能。在这两种情况下，GPT-4产生了令人印象深刻的输出，远远优于之前最先进的LLM ChatGPT，至少可以媲美(如果不是优于)人类会做的事情。

然而，令人印象深刻的输出还不足以让我们相信GPT-4已经真正掌握了这些任务。我们需要进一步研究，以排除GPT-4只是简单地记忆或复制一些现有数据的可能性。对于这篇诗，我们可以稍微改变一下问题，让GPT-4用莎士比亚的风格写一个同样定理的证明，见图2.2，或者要求不同的组合，比如写一个关于语言模型的柏拉图式对话，见图1.6。可以看到，GPT-4很容易适应不同的风格并产生令人印象深刻的输出，这表明它对所涉及的概念有灵活和普遍的理解。对于独角兽，我们可以稍微修改一下代码，然后让GPT-4修复或改进它。例如，我们可以删除角，对坐标应用一些随机变换，然后让GPT-4将角重新添加到独角兽中(我们还小心地删除了代码中的文本信息，如注释)。如图1 -4所示，GPT-4可以正确识别头部的位置，绘制一个角，并将其连接到头部，这表明它可以基于自然语言描述理解和操作代码，以及推断和生成视觉特征。这些例子展示了我们如何利用人类的创造力和好奇心来产生新的和困难的问题，并探索GPT-4的反应和行为，以评估其智力。在本文的其余部分，我们围绕用例组织了对GPT-4的研究，涵盖了各种领域和任务，并强调了GPT-4的优点和缺点。我们接下来会介绍这些。

1.2 实验

我们在几个选定的主题上执行上述方法，这些主题大致涵盖了1994年智力定义中给出的不同能力。智力是一种非常普遍的心智能力，包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力。

**1. GPT-4的主要优势是它对自然语言无与伦比的掌握。**它不仅可以生成流畅连贯的文本，还可以以各种方式理解和操纵它，例如总结、翻译或回答一系列极其广泛的问题。此外，我们所说的翻译不仅指不同自然语言之间的翻译，还包括语气和风格上的翻译，以及跨领域的翻译，如医学、法律、会计、计算机编程、音乐等，参见图1.6中的柏拉图对话。这些技能清楚地证明了GPT-4可以理解复杂的想法。在第2节中进一步探讨了GPT-4跨模式和学科的组合技能。我们还在第7节中给出了更多关于语言的实验。

**2. 编码和数学是抽象推理和思考能力的象征。**在第3节和第4节中，我们分别探讨了GPT4在这些领域的能力。然而，我们注意到，就像论文的所有其他部分一样，我们只是触及了这些主题的皮毛，整篇论文可以(并且将会)讨论GPT-4在这些领域的性能。此外，我们可以选择其他几个专家领域来展示GPT-4的一般推理能力，如医学或法律。我们对美国医学执照考试第1步、第2步和第3步的选择题部分(大部分分数)进行了初步测试(详见[Ope23])，每一步的准确率都在80%左右。对GPT-4在多州司法考试中的能力进行的类似初步测试显示，准确率在70%以上。我们注意到，最近在最新一代LLM中观察到这些领域出现了人类水平的能力，例如，数学和医学上的谷歌's PaLM参见[LAD+22, SAT+22]，法律上的GPT-3.5参见[BIK22]。正如我们之前解释的，我们研究GPT-4的方法不同于这些工作。

**3.在第5节中，我们将测试模型规划和解决问题的能力，**以及在一定程度上通过让它玩各种游戏(或翻桌子，模拟游戏环境)以及与工具交互来快速学习和从经验中学习的能力。特别是，GPT-4可以使用工具(包括它自己)这一事实，对于使用GPT-4构建实际应用程序肯定是非常重要的。

**4. 我们争论的一个重要部分是，GPT-4在许多任务上达到了人类水平的性能。**因此，我们很自然地会问，GPT-4对人类本身的理解程度如何。我们在第6节中展示了关于这个问题的几个实验，包括理解人类以及GPT-4使自己为人类所理解的实验，即解决可解释性问题。我们特别注意到，此类任务需要大量的常识，这是迄今为止LLM的众所周知的痛点[DM15]。在图1.7中，我们给出了GPT-4在常识性问题上比ChatGPT好多少的第一个例子，并在附录a中提供了一些进一步的例子。

5. 在整篇论文中，每当我们发现局限性时，我们都会强调，但我们也将第8节专门用于深入分析缺乏规划，这可能是GPT-4架构的自回归性质的直接后果。

6. 最后，在第9节中，我们讨论了这种早期形式的AGI的预期社会影响，在第10节中，我们分享了该领域的关键挑战、方向和下一步步骤。

许多读者脑海中可能挥之不去的一个问题是，GPT-4是否真正理解所有这些概念，或者它只是在没有任何真正或深入理解的情况下，在即兴发挥方面比之前的模型好得多。我们希望在阅读本文后，这个问题应该几乎翻转过来，人们可能会想，除了即兴发挥之外，真正的理解还有多少。有人能合理地说一个通过了软件工程候选人考试的系统(图1.5)不是真正的智能吗? 也许对理解的唯一真正考验是一个人是否可以产生新的知识，例如证明新的数学定理，这是LLM目前仍然无法实现的壮举。

结论

**本文在广泛的任务和领域中展示了对GPT-4的初步探索，为GPT-4的能力在其中许多方面与人类水平相当的说法提供了支持性证据。**这一结论与OpenAI在[Ope23]中提出的研究结果一致。实验的一个主要目标是对GPT-4的智能进行初步评估，鉴于这一概念缺乏正式定义，这是一项艰巨的任务，特别是对人工系统。希望我们的探索为理解GPT-4的卓越能力和挑战提供了有用和必要的第一步，并为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来AI系统开辟了新机会。上述模型在深度和通用性方面的能力表明，机器学习社区需要通过结构化的数据集和任务超越经典的基准测试，并且对这些新模型的能力和认知能力的评估在本质上已经更接近于评估人类的能力，而不是狭义AI模型的能力。希望我们的研究能够促进对GPT-4和类似系统的进一步研究，无论是在探索新的应用和领域方面，还是在理解其智能基础的机制和原理方面。**本文工作的中心主张是，GPT-4实现了一种形式的通用智能，确实展示了人工通用智能的火花。**这可以通过它的核心心智能力(如推理、创造力和推理)，它获得专业知识的主题范围(如文学、医学和编码)，以及它能够执行的各种任务(如玩游戏、使用工具、解释自己，……)来证明。要创建一个有资格成为完整AGI的系统，还有很多工作要做。最后，讨论了几个直接的下一步步骤，包括定义AGI本身，构建AGI LLM中缺失的一些组件，以及更好地理解最近LLM所显示的智能的起源。

成为VIP会员查看完整内容

251

相关内容

GPT-4

关注 29

北京时间2023年3月15日凌晨，ChatGPT开发商OpenAI 发布了发布了全新的多模态预训练大模型 GPT-4，可以更可靠、更具创造力、能处理更细节的指令，根据图片和文字提示都能生成相应内容。具体来说来说，GPT-4 相比上一代的模型，实现了飞跃式提升：支持图像和文本输入，拥有强大的识图能力；大幅提升了文字输入限制，在ChatGPT模式下，GPT-4可以处理超过2.5万字的文本，可以处理一些更加细节的指令；回答准确性也得到了显著提高。