大型语言模型对齐

近年来，大型语言模型（LLMs）已取得了显著的进展。这些进展，虽然引起了极大的关注，同时也引发了各种担忧。这些模型的潜力无疑是巨大的；然而，它们可能会产生不准确、误导性或甚至有害的文本。因此，采用对齐技术来确保这些模型表现出与人类价值观一致的行为变得至关重要。本调查旨在为大型语言模型的对齐方法提供广泛的探讨，结合现有的能力研究。通过AI对齐的视角，我们将现行的方法和新出现的大型语言模型的对齐提案分类为外部和内部对齐。我们还探讨了一些显著问题，包括模型的可解释性和潜在的对抗攻击的脆弱性。为了评估大型语言模型的对齐，我们提出了各种基准和评估方法。在讨论了大型语言模型的对齐研究状况之后，我们最终展望未来，思考了未来有前途的研究方向。 我们对本次调查的愿景不仅仅是激发在这一领域的研究兴趣。我们还希望弥合AI对齐研究社群和致力于探索大型语言模型能力的研究人员之间的差距，为能力强大且安全的大型语言模型牵线搭桥。

1 引言

以OpenAI的ChatGPT（OpenAI，2022年）和GPT-4（OpenAI，2023a年）为例的大型语言模型（LLMs）已经迅速发展，重新点燃了对人工通用智能（AGI）的热忱和期望。虽然LLMs作为通向AGI的路径仍是一个讨论的话题，但这些模型，凭借着扩展规律（Kaplan等，2020年；Hoffmann等，2022年），越来越展现出类似AGI的特征（Bubeck等，2023年）。在大量数据的训练下，LLMs不仅展示出了强大的语言能力，而且在数学、推理、医学、法律和编程等多个领域迅速接近人类水平的熟练度（Bubeck等，2023年）。 伴随着LLMs在技术上的突破，人们越来越关注它们可能对人类构成的潜在威胁和伦理风险。有明确的伦理风险已被发现。研究表明，LLMs可能会无意中传播它们训练数据中的有害信息，例如偏见、歧视和有毒内容（Weidinger等，2021年）。它们可能会泄露训练数据中的私人和敏感信息，或生成误导性、虚假或低质量的信息。此外，部署LLMs也引入了社会和伦理挑战，例如LLMs的潜在滥用和对严重依赖LLM代理的用户的负面影响，以及对环境、信息传播和就业的更广泛影响（Bubeck等，2023年）。

对于长期影响，人们普遍担忧未对齐的AGI构成存在风险。超越人类智力和知识的AI代理可能会发展出自己的目标，与人类设定的目标产生分歧。在追求其目标的过程中，这样的代理可能会垄断资源，确保其保存和自我增强。这一轨迹可能导致人类完全失权，不可避免地导致人类存在的灾难性后果（Carlsmith，2022年）。

作为解决这些问题的技术解决方案，AI对齐，即确保AI系统产生与人类价值观一致的输出，越来越受到关注。在LLMs的背景下，对齐确保模型的响应不仅准确和连贯，而且从开发人员和用户的角度来看是安全、道德和可取的。随着语言代理越来越融入我们日常生活的各个方面，从内容创建到决策支持，任何未对齐都可能导致意想不到的后果。正确地将大型语言模型与人类价值观对齐，确保了这些模型的巨大潜力得到可信赖和负责任的利用。

响应这一领域日益增长的兴趣，最近有一些文章回顾了（或偶然讨论了）LLMs的对齐方法（Pan等，2023年；Zhao等，2023b年；Fernandes等，2023年；Liu等，2023d年；Wang等，2023d年）。然而，一个值得注意的观察是，这些评论主要集中在外部对齐上，常常忽略了AI对齐中的其他重要主题，如内部对齐和机械解释性。虽然无可否认，外部对齐在LLM对齐中占据了关键地位，并且一直是深入和深刻研究的主题，但从更广泛的AI对齐角度来看，它只是整个对齐景观的一部分。

为了弥补这一差距，我们从AI对齐的角度提供了LLM对齐的全面概述。我们认为，对齐的全面理解不仅应该包括广泛研究的外部对齐，还应该深入探讨目前还处于起步阶段的领域。诸如内部对齐和机械解释性这样的主题，虽然目前还处于研究的初级阶段，但却拥有巨大的潜力。在这个阶段，这些领域的许多提案仍然是理论性的，或者仅仅是思考实验。然而，我们认为，它们对LLM对齐研究的未来轨迹是不可或缺的。通过揭示这些被忽视的领域，我们希望呈现出一个更为全面的对齐视角。因此，除了现有的LLM对齐方法，我们还将介绍几个对齐主题，尽管这些主题尚未应用于LLMs，但显示出前景，并可能在可预见的未来成为LLM对齐的组成部分。通过这样做，我们致力于丰富AI对齐及其在大型语言模型领域的多方面应用的论述。

总结所有这些因素，我们在图1中提出了一个LLM对齐的分类法。具体来说，本调查将首先讨论LLM对齐研究的必要性（第2节）。为了提供AI/LLM对齐的历史和鸟瞰视图，我们介绍了AI对齐的起源和相关概念（第3节）。根据我们提出的分类法，将对齐LLMs的理论和技术方法分为外部对齐（第4节）、内部对齐（第5节）和机械解释性（第6节），遵循AI对齐的哲学（Krakovna，2022年）。除了这些理论和实证方法外，我们还进一步讨论了LLMs当前对齐方法的潜在副作用和脆弱性，包括对抗攻击（第7节），以及LLM对齐评估的方法和基准（第8节）。最后，我们提出了我们对LLM对齐研究未来趋势的有限观点（第9节）。

为什么LLM对齐？

LLMs不仅在文本生成方面变得越来越有能力，还在许多其他任务中展现出能力，例如，文本到代码生成（Poesia等，2022年），计划（Huang等，2022年；Song等，2022年），工具学习（Qin等，2023年），推理（Mialon等，2023年）。然而，LLMs的训练目标（Radford等，2019年；Devlin等，2019年），例如，下一个单词预测（Radford等，2019年）或确定两个句子在上下文中是否相关（Devlin等，2019年），并不一定符合人类价值观。因此，LLMs可能会生成人类希望避免的不良内容或冒险行为。LLM风险通常可以从两个方面来看：已建立的风险和预期的风险（Weidinger等，2021年）。前者主要是观察到的社会和伦理风险（Weidinger等，2021年），而后者是与高级LLM相关的未来潜在风险（Hendrycks等，2023年）。什么是LLM对齐？

为了深入理解大型语言模型（LLMs）中的技术对齐，我们需要讨论更广泛的概念，即AI对齐。尽管这是一个新兴领域，但在LLMs出现之前就已经进行了研究。我们简要介绍AI对齐的起源、研究格局和要点，以及与AI对齐相关的概念，这些都为LLM对齐及其最近出现的子领域提供了背景。

AI对齐的起源

AI对齐的起源可以追溯到激发AI革命的最初愿望：创建能够像人类一样思考和行动，甚至超越人类的机器。如果我们成功创建了这样强大的机器，我们如何确保它们按照我们的最佳利益行事，而不是反对我们呢？这个未解之谜不仅引发了好奇心，而且强调了我们在塑造AI未来时所承担的深远责任。

赛博格学之父Norbert Wiener在一篇发表在《科学》杂志上的论文中提出了这样的担忧（Wiener, 1960）： “如果我们为了实现我们的目的，使用了一个我们一旦启动就无法有效干预其操作的机械机构，因为这个行动如此迅速和不可逆，以至于我们在行动完成之前没有数据进行干预，那么我们最好确保放入机器的目的是我们真正的愿望，而不仅仅是它的多彩模仿。”

这个声明强调了确保“机械机构”的目标与我们为它设定的真正目标一致的重要性，强调了机器和人类目标之间的对齐。

2014年，人工智能：一种现代的方法（Russell和Norvig，2010）的作者之一Stuart Russell在一次采访中表示：要深入了解LLMs中的技术对齐，我们需要讨论AI对齐这一更为广泛的概念。即便这是一个新兴领域，但AI对齐的研究在LLMs出现之前就已经开始。我们简要介绍了AI对齐的起源、研究景观和成分以及相关概念，为LLM对齐及其新兴的子领域提供背景。

“正确的响应似乎应该是改变该领域本身的目标；我们需要构建的不是纯粹的智能，而是可以证明与人类价值观相一致的智能。由于实际原因，我们需要解决即便是在人类环境中操作的相对不那么智能的AI系统的价值对齐问题。如果我们理解这个问题是AI固有的一部分，就像容纳是现代核聚变研究的固有部分一样，那么我们有理由保持乐观。世界不需要走向悲伤。” —— Stuart Russell, 2014。他定义了“价值对齐问题”（VAP），强调了建造不仅聪明而且与人类价值观一致的AI系统的需要。尽管AI对齐的概念在AI诞生之初就已经种下，但过去几十年基本上没有进行研究。长时间以来，AI在各种能力方面都没有达到人类水平，甚至被嘲笑称为“人工白痴”。

然而，最近的进展，尤其是大型语言模型的崛起，已经将AI能力推向了接近甚至超过人类在许多任务上的表现的水平。这种复苏使得AI对齐的重要性和紧迫性浮出水面。从2012年开始，在相关论坛和arXiv上已经开始出现了关于AI对齐的讨论和研究文章。到2017年，关于AI对齐的出版物已经爆炸性地增长，论文数量从每年不到20篇增加到了超过400篇（Kirchner等，2022），与Transformer（Vaswani等，2017）和GPT（Radford等，2018）的发明相吻合。

相较于其他AI研究领域，如自然语言处理，AI对齐还处于前范例阶段（Kirchner等，2022）。这个新兴领域中的许多关键概念和术语还没有达成共识。术语如“对齐”，“AI对齐”，和“价值对齐”在讨论中经常可以互换使用。在某些上下文中，“人机对齐”作为“AI对齐”的替代词出现。而“对齐”一词在AI对齐的上下文中是合适的，但在更广泛的上下文中可能会产生歧义，可能与机器翻译中的双语对齐等其他对齐概念混淆。此外，对AI对齐的定义还没有达成共识。Paul Christiano将AI对齐定义为“如果A在尝试做H希望它做的事，那么A就与H一致。”这个定义过于泛泛了然，因为几乎所有的AI模型都在尽力做其创建者希望它们做的事。

在此调查中，我们从其内在的角度定义AI对齐：AI对齐确保AI代理的内外目标都与人类价值观一致。外部目标是基于人类价值观由AI设计师定义的，而内部目标则是AI代理内部优化的。这一定义虽然区分了AI代理的内外目标，但并未准确定义人类价值观，因此略显不精确。将AI系统的目标分类为外部目标和内部目标的原因在于AI对齐的技术性质（Hubinger等，2019c）。在这个定义中没有指定人类价值观，是因为AI对齐固有的社会和技术挑战（Hendrycks等，2021）。

AI对齐的研究格局和成分

众所周知，从广泛的角度来看，AI对齐的关键研究议程包括外部对齐、内部对齐和可解释性（Hubinger, 2020b; Ngo, 2022; Krakovna, 2022）。

外部对齐

这是选择正确的损失函数或奖励函数，并确保AI系统的训练目标符合人类价值观。换句话说，外部对齐试图将指定的训练目标与其设计者的目标对齐。至少出于以下原因，这在实践中非常困难： • 通常很难理解和定义人类价值观或意图。 • 人类价值观有很多不同的细粒度维度。我们需要将指定的目标与所有这些维度对齐吗？ • 人类价值观通常受社会和文化限制。我们需要将指定的目标与所有不同的文化和社会对齐，还是只对其中的一部分对齐？考虑到文化和社会的多样性，我们如何确保价值对齐的公平性？ • 由于人类价值观/意图通常是定性的，而要优化的损失或奖励必须是可衡量和可计算的，我们如何弥合它们之间的差距？这被称为目标规范问题。 • 外部对齐可能会遭受规范游戏的困扰，其中由于古德哈特定律，可能会出现无法预见的目标或后果。古德哈特定律起源于经济学，其内容是“当一项衡量变成一个目标时，它就不再是一个好的衡量”。这与外部对齐有关，因为某个价值的代理是要被优化的目标，它可能不再是一个好的代理。

**内部对齐

这是为了确保AI系统实际上经过培训以实现设计师设定的目标。一旦我们指定了培训目标，我们需要确保AI系统的行为实际上符合这些规范。由于AI系统，尤其是深度学习模型，可以开发出难以从其训练数据或目标中预测的行为，这是具有挑战性的。例如，一个经过训练来赢得游戏的AI系统可能会找到一个意想不到的漏洞或者逃避通道，这在技术上满足了它的目标，但违反了游戏的精神。目标错误泛化问题（Shah等人，2022）是另一个例子，即使我们有正确的目标规范，由于在未见情况下的鲁棒性失败，仍然可能产生无意的目标。内部对齐确保AI的“内部”目标（它在学习过程中推导或优化的目标）符合设计师设定的“外部”目标。外部和内部对齐对于构建安全可靠的AI至关重要。如果失败，我们冒着创造的系统的行为与人类价值观或意图不一致的风险。随着LLMs变得更加有能力，这些对齐问题的重要性增加，使得LLM对齐的研究与LLM能力的研究一样关键。

**可解释性

在AI对齐的背景下，可解释性广泛地指的是促使人们理解AI系统的内部运作、决定和行为的方法、模型和工具。它可以进一步分为： • 透明性：这是通过追踪AI系统的内部状态来理解黑盒中的AI系统的内部运作，从而引导其行为和决定。透明性的一个新兴而有趣的方法是机械可解释性，它寻求将机器学习系统（特别是神经网络）的输出和行为逆向工程到其内部状态、权重和组件（Nanda等人，2023）。由于LLMs中参数的巨大数量以及LLMs作为大型神经网络的系统复杂性，逆向工程LLMs是非常困难的。当前的机械可解释性通常在LLMs的小型和简化模型上进行（例如，去除了FFN子层的两个神经层）（Elhage等人，2021; 2022a）。然而，这是一个相当有前途的方向，为神经网络的对齐提供了深刻的见解，并有望在未来取得突破。 • 可解释性：这涉及AI系统为其决定提供人类可理解的解释的能力。在许多关键领域，例如医疗保健、金融和执法，AI做出的决定对许多方面都有深远的影响。例如，考虑一个医疗诊断AI。如果这个系统预测一个患者患有特定的医疗病症，仅仅输出这样的预测结果是不够的。医疗专业人员、患者和其他利益相关者会想要知道这个预测是如何做出的。它是否考虑了患者的病史、最近的实验室结果或特定的症状来做出全面的决定？解释通常被视为模型输出的事后分析，该模型允许模型更多地了解其预测。透明度是查看模型内部以揭示模型的运作方式。尽管这种划分不是绝对的（Lipton，2017），透明度更多地与对齐相关，因为透明度工具不仅使我们了解模型的内部结构，还提供了模型在培训过程中变化的见解（Hubinger，2022a）。

**外部对齐、内部对齐和可解释性之间的关系

外部和内部对齐共同确保模型的行为与人类的价值观和意图一致。外部对齐专注于从人类目标到模型的规范，而内部对齐深入研究模型的内部优化过程，以保证模型本质上试图做设计师希望它做的事情。尽管存在这种差异，他们的二元和形式主义二分法并不建议，因为对齐失败的分类有时是模糊的，构建安全和可信赖的系统时，整体对齐观点是重要的。8虽然可解释性不直接针对对齐，但其工具和技术可以帮助外部和内部对齐。通过了解模型如何演化和做出决定，我们可以更好地识别何时以及在哪里发生不对齐。例如，如果模型采取意想不到的捷径来实现其目标，可解释性可能会帮助我们了解这何时以及如何发生。此外，可解释性可以向我们提供模型的内部推理过程的见解。

近年来，LLM（大型语言模型）的快速发展无疑揭开了新技术力量的新纪元。然而，随着这一力量的出现，我们也承担着确保这些模型在人类伦理和期望的范围内运作的责任。本文提供了针对LLM的对齐方法的全面概述，强调了将能力研究与伦理考虑相结合的重要性。我们通过将对齐技术分类为外部对齐和内部对齐，揭示了研究社区目前所采用的多方面方法。同时，我们也讨论了新兴的主题，如模型的可解释性和对抗性攻击的脆弱性，突出了对齐过程中的复杂性。此外，本文不仅记录了当前对齐研究的现状，还展望了未来，确定了有望进一步完善和提高LLM对齐的潜在研究轨迹。我们真诚希望这份调查能作为催化剂，促进AI对齐社区与LLM研究人员之间的合作。这样的合作方法是实现LLM全部潜力的必要条件，确保它们以道德合规和有益的方式服务于人类。总之，当我们继续推动LLM的可能性边界时，我们必须始终坚守对其负责任和有原则的部署的承诺。

成为VIP会员查看完整内容

119

1 引言

AI对齐的起源

**内部对齐

**可解释性

**外部对齐、内部对齐和可解释性之间的关系

相关内容