112页《人工智能对齐：全面性综述》中文版

人工智能对齐 (AI Alignment) 旨在使人工智能系统的行为与人类的意图和价值观相一致。随着人工智能系统的能力日益增强，对齐失败带来的风险也在不断增加。数百位人工智能专家和公众人物已经表达了对人工智能风险的担忧，他们认为 “减轻人工智能带来的灭绝风险应该成为全球优先考虑的问题，与其他社会规模的风险如大流行病和核战争并列” [1]。为了提供对齐领域的全面和最新概述，本文在这份综述中深入探讨了对齐的核心概念、方法和实践。首先，本文确定了人工智能对齐的四个关键目标：鲁棒性 (Robustness)、可解释性 (Interpretability)、可控性 (Controllability) 和道德性 (Ethicality) (RICE)。在这四个目标原则的指导下，本文概述了当前人工智能对齐研究的全貌，并将其分解为两个关键组成部分：前向对齐和后向对齐。前者旨在通过对齐训练使人工智能系统对齐，而后者旨在检验系统的对齐性，并适当地管理它们，以避免加剧对齐失败带来的风险。前向对齐和后向对齐形成了对齐循环，在这个循环过程中，前向过程中人工智能系统的对齐度在后向过程中得到验证，而这种验证同时为下一轮的前向对齐提供更新后的对齐需求。在前向对齐中，本文讨论了从反馈中学习和在分布偏移下学习的技术。具体来说，本文调查了传统的偏好建模方法和从人类反馈中的强化学习 (RLHF)，并进一步讨论了对于难以获得有效人类监督的任务, 如何实现 “可扩展监督”。在分布偏移下学习中，本文涵盖了数据分布干预方法，如对抗训练，并介绍了如何采取算法干预来实现分布外目标泛化。在后向对齐上，本文讨论了对齐保证如何保证人工智能系统在训练后依然拥有对齐性，以及人工智能治理在对齐环节中的必要性。具体来说，本文调研了在人工智能系统生命周期中的对齐保证，包括安全评估、可解释性和人类价值契合性验证。本文进一步讨论了不同政府、产业参与者和其他第三方当下采用的治理实践方法，并探讨建立一个包含国家、企业、学术界等多方共同参与的人工智能监管体系，从而管理现有和未来的人工智能风险。 https://alignmentsurvey.com/

1 引言

随着人工智能系统愈发强大，它们被逐渐应用于不同领域 (§1.1.1)，比如基于大语言模型 (Large Language Models, LLMs)[2-3]的智能体开发，以及应用深度强化学习 (Deep Reinforcement Learning, DRL) 控制核聚变[4]。然而，这些人工智能系统能力的提升和在高风险领域的应用带来了更高的潜在危险。先进人工智能系统表现出的各种不良行为（例如，操纵[5-9] 和欺骗[10]）引发了人们对人工智能系统可能带来的伦理和安全挑战的担忧。这些担忧进一步激发了对人工智能对齐 (AI Alignment)[11-14] 的研究努力。人工智能对齐旨在使人工智能系统的行为与人类的意图和价值观一致[15] – 它更多关注的是人工智能系统的意图和目标，而不是它们的能力。对齐失败 (即未对齐) 是人工智能可能造成危害的最突出的原因之一。这些失败背后的机制包括奖励破解[16] 和目标错误泛化[17]等，而双刃剑组件的存在又进一步放大对齐失败可能带来的危害，例如态势感知[18]、广泛目标[19]、内优化目标[20]以及对资源访问权限扩大[21] (§1.3)。为解决对齐失败，本文专注于实现对齐的四个关键目标（§1.1.2）：鲁棒性，可解释性，可控性，和道德性（RICE）。当前关于对齐的研究和实践包括四个领域（§1.2）：从反馈中学习（§2），在分布偏移下学习（§3），对齐保证（§4），和人工智能治理（§5）。这四个目标 (RICE) 和四个领域并不是一一对应的。每个单独的领域通常服务于多个对齐目标，反之亦然（参见表 1）。同时，这四个领域和四个目标共同构成了对齐循环 (参见图2)。在这份综述中介绍了人工智能对齐的概念，方法和实践，并讨论了可能的未来研究方向。**1.1 对齐问题表征 **人工智能对齐的动机可以被阐述为三步论证，每一步都建立在前一步的基础上: (1) 基于深度学习的系统 (或应用) 对社会的影响越来越大，并可能会带来重大风险 (§1.1.1);(2) 对齐失败代表了重大风险的一个主要来源 (§1.1.1); (3) 对齐的研究和实践旨在解决来自不对齐系统的风险 (例如权力寻求的行为) (§1.1.2)。 **1.1.1 AGI 的前景和影响在最近的十年中，深度学习领域取得了显著的进步，其发展范围从符号系统[22-23]扩展到基于自监督学习的人工智能系统[24-25]。这一进展使得大型神经网络在各种领域中都展现出了卓越的能力，特别是在游戏环境[26-28]以及复杂且高风险的真实世界应用场景[29,4]中。大语言模型在多步推理[30-31]和跨任务泛化[32-33]方面的能力也不断增强。这些能力的提升与训练时间的延长、训练数据量的增加以及模型参数的扩大密切相关[34-36]。随着人工智能系统能力的增强，其带来的风险也随之增加。大语言模型的一些不良行为 (例如，不真实的回答[37]、谄媚[6,9]和欺骗[38,10] ) 也随着模型规模的增加而恶化[6]，引发人们对先进人工智能系统道德性的担忧。此外，如基于大语言模型的智能体[2-3]等新兴趋势也激起人们对系统可控性的探讨[39]。展望未来，人工智能系统的日益强大为在可预见的未来实现通用人工智能 (AGI) 提供了可能性，即系统可以在所有相关方面达到或超过人类智能[40]。这可能带来广泛的机会[41]，如自动化[42]、效率提升[43]和快速的技术进步[44]，但也可能带来严重的风险[1,45]，如安全问题[46]、偏见和不平等[47]，以及来自超人类能力人工智能系统的大规模风险[48-49]。以偏见为例，最先进的大语言模型表现出对性别、性身份和移民身份等明显的偏见[6]，这可能加剧社会现有的不平等现象。在超人类能力人工智能系统的大规模风险中[48]，先进人工智能系统可能带来的全球性灾难性风险尤其令人担忧 (如全球范围内的严重危害) [50-52] 和存在性风险 (即威胁到人类长期生存的潜在毁灭性风险) [12]。这些担忧在第一原理演绎论证[53,49]，进化分析[54]，和具体情境映射[55-56] 中得到了详细阐述。在 CAIS[1] 中，人工智能科学家和其他知名人士表示，减轻人工智能引发的灭绝风险应与其他社会规模的风险如大流行病和核战争一样，成为全球优先考虑的问题。在 NeurIPS 2021 和 ICML 2021 上，Stein-Perlman et al.[57] 发布报告称，有 50% 的研究者认为先进人工智能系统对人类的长期影响有 5% 的可能性会是极度糟糕的 (如人类灭绝)，而 36% 的 NLP 研究者在 Michael et al.[58] 的调查中报告认为，人工智能有可能在本世纪内产生灾难性的结果，其级别相当于全面核战争。人工智能的存在性风险还包括锁定风险、停滞风险[11,46]，以及灭绝风险等。11 月初，英国举办了首届全球人工智能安全峰会，汇集了国际政府、领先的人工智能科技公司、民间社会团体和研究专家。峰会上发布了《布莱切利宣言》，宣言中强调共同识别人工智能安全风险、提升透明度和公平性，建立科学和证据为基础的共享理解。具体来说，当前最先进的人工智能系统已经表现出多种与人类意图相悖的不良或有害行为 (例如，权力寻求和操纵用户的行为) [59-60]，并且一些论文也对更先进的人工智能系统提出了类似的担忧[61,1]。这些不符合人类意图的不良或有害行为，被称为人工智能系统的对齐失败，这些对齐失败行为即使没有恶意行为者的滥用，也可能自然发生，并代表了人工智能的重大风险来源，包括安全隐患[62]和潜在的生存风险[51]。由于 (1) 构建超智能人工智能系统 (2) 这些人工智能系统追求大规模目标 (3) 这些目标与人类意图和价值观不对齐 (4) 以及这种对齐失败导致人类失去对未来轨迹控制的可能性非常大，因此这些风险的规模将相当庞大[53]。解决对齐失败带来的风险需要人工智能系统的对齐技术，以确保人工智能系统的目标与人类意图和价值观一致，从而避免非预期的不利结果。更重要的是，本文期望对齐技术能够应对更困难的任务，并且能够应用于比人类更智能的先进人工智能系统。一个可能的解决方案是超级对齐，其目标是构建一个大致与人类水平相当的自动对齐研究器，从而使用大量的计算能力来迭代并扩增对齐超智能[63]。1.1.2 对齐的目标：RICE 原则我们如何构建与人类价值和意图对齐的人工智能系统？**目前并没有一个被普遍接受的用来衡量对齐的标准。在讨论之前，我们必须明确本文所说的对齐目标是什么。Leike et al.[15]提出智能体对齐问题，并指出了这样的问题：“如何创建能够按照用户意图行事的智能体？” 进一步，其将问题扩展到了超级人工智能系统上[63]：“如何确保比人类更聪明的人工智能系统遵循人类的意图？” 在这些讨论中，一个一致的主题是对人类意图的关注。为了清楚地定义对齐目标，我们必须准确地描述人类的意图，正如 Kenton et al.[64]所指出的，这是一个具有挑战性的任务。例如，人类可以代表从个体到人类群体的各种实体。Gabriel[65]将意图分为几个类别，如指令 (遵循用户的直接命令)、表达的意图 (根据用户的潜在愿望行事)、揭示的偏好 (反映用户的基于行为的偏好) 等。具体来说，我们用四个关键词来描述对齐的目标：鲁棒性，可解释性，可控性，和道德性（RICE）。图 1 总结了这些原则，表 1 给出了综述中涵盖的对齐研究方向与 RICE 原则之间的对应关系。以下是对四个原则的详细解释。

鲁棒性指人工智能系统在面对多样化场景[66]或对抗压力[67]时的抵抗力，特别是保证其目标的正确性以及能力泛化性。鲁棒的人工智能系统能够应对黑天鹅事件[68]和长尾风险[62]，以及各种对抗压力[69-70]。例如，一个初步对齐的大语言模型可以拒绝执行有害的请求，但用户可以通过越狱提示和其他对抗攻击使得模型被迫执行有害的行为[71-73]。而一个能够抵抗对抗攻击的模型在面对诱发系统失败的输入时仍能按照预期行事。随着人工智能系统在军事和经济等高风险领域的应用越来越广泛[74]，我们更要确保它能抵御意外中断和对抗攻击，因为即使是瞬间的失败也可能带来灾难性的后果[75-76,67]。一个对齐的系统应在其生命周期内始终保持鲁棒性[77]。

可解释性要求人类能理解人工智能系统的内在推理过程，特别是黑盒神经网络的内部工作原理[78]。直接的对齐评估方法，如行为评估，可能会受到人工智能系统不诚实行为的干扰[79,10,38]或欺骗性对齐[80-81]的影响。解决这些问题的一种方法是在构建系统的过程中设计必要机制使人工智能系统诚实、不隐藏、不操纵[82-84]。或者，我们可以构建可解释性工具，深入了解神经网络内部的概念和推理机制[85-86]。除了使安全评估成为可能，可解释性还使决策过程对于用户和利益相关者透明和易于理解，从而实现人类的有效监督。随着人工智能系统在现实世界的决策过程和高风险环境中扮演越来越重要的角色[87]，揭示决策过程而不是让它保持作为一个不透明的黑盒系统变得至关重要[88-89]。 * 可控性是一种必要的属性，它确保系统的行动和决策过程始终受到人类监督和约束。它保证人类可以及时纠正系统行为中的任何偏差或错误[90-91]。随着人工智能技术的日益发展，越来越多的研究表达了对这些强大系统的可控性的关注和担忧[61,92-93]。当一个人工智能系统开始追求与其人类设计者相矛盾的目标时，它可能表现出一些具有重大风险的能力，包括欺骗、操纵用户和权力寻求的行为[21,93]。可控性的目标主要集中在如何在训练过程中实现可扩展的人类监督[94]，以及人工智能系统的可纠正性 (即在部署过程中不抵制关闭或目标修改) [90]。

道德性指一个系统在决策和行动中坚定不移地维护人类的规范和价值观。在这里，规范和价值观包括道德指南和其他社会规范/价值观。它确保系统避免采取违反道德规范或社会公约的行为，例如对特定群体展示偏见[95-100]，对个人造成伤害[101-102,60]，以及在汇总偏好时缺乏多样性或公平性[103]。有大量的研究致力于为人工智能系统开发道德框架[104-105]。将道德原则融入人工智能系统是实现人机共生社会的必经之路[106]。

与其他原则的比较探讨 RICE 原则从人机对齐和人机共存的角度，简洁地总结了人工智能对齐的目标。以前的一些研究提出了关于人工智能系统建设的指导方针。例如，阿西莫夫法则可以被视为人机共存的最早探索，它强调机器人应该造福人类并探讨了实现这一目标的困难所在[107]。另一方面，FATE 原则 (公平性、问责机制、透明性和伦理性) [108]倾向于定义人工智能系统在人机共存生态系统中应具备的高级品质。我们希望从人类管理者和设计者的立场回答人机共存的问题，考虑确保人工智能系统符合人类意图和价值的必要步骤。此外，一些标准强调了狭义的人工智能安全，例如 3H 标准 (帮助性、诚实性和无害性) [33]和政府机构的相关提案[109]。我们的目标是通过引入其他关键维度，包括可控性和鲁棒性，来扩展这些狭义的安全标准。

2 从反馈中学习

从反馈中学习旨在通过反馈将人类的意图和价值观传达给人工智能系统，它是前向对齐的起点。在本节中，我们将关注从反馈中学习的动态过程，并将其划分为三个元素：(1) 人工智能系统：需要对齐的对象，如对话系统、机器人系统等；(2) 反馈：这是用于调整人工智能系统的信息，由顾问集提供，顾问集可以由人类、人工智能或由人工智能协助的人类组成；(3) 代理：用于建模反馈的系统，以使得算法学习更易访问，例如 RLHF 中的奖励模型。基于这些元素，我们确定了人工智能系统从反馈中学习的两种途径：(1) 直接从反馈本身学习 (2) 通过对反馈建模得到的代理进行间接学习。基于这个过程，我们从对齐的角度讨论反馈类型 §2.1，区分向人工智能系统提供信息的各种形式及其特点。在随后的部分中，我们介绍了一些最近为构建强大人工智能系统[113]和使它们与人类意图对齐[273]提供了深入见解的基本概念。偏好建模 §2.2强调了如何利用这一技术帮助构建代理，以协助人类向复杂或难以评估的人工智能系统提供反馈。策略学习 §2.3关注那些使用反馈构建强大人工智能系统的主要研究方向。随后，我们的讨论将自然过渡到可扩展监督 §2.4，在这一部分，我们从更广阔的对齐视角反思学习过程和目标。

3 在分布偏移下学习

可靠的人工智能系统的构建在很大程度上依赖于它们适应多样化数据分布的能力。训练数据和训练环境往往是实际部署场景的不完美近似，这导致它们可能缺少某些关键元素，如对抗压力[441] (例如，在监督学习系统中的高斯噪声[442]，在自动驾驶系统中的影子攻击[443] )，多智能体交互情景[61,131]，人类监督者无法有效评估的复杂任务[15]，29以及可以被操控的奖励机制[121]。从训练分布到测试分布 (或环境) 的这种差异转变被称为分布偏移[121-122]。因此，在训练分布下对齐的人工智能系统 (即追求与人类意图一致的目标) 可能在部署 (或测试) 分布下无法保持其对齐性，进而在部署后导致严重的对齐问题。这种可能的失败引发了关于在数据分布之间保持对齐属性 (即遵守人类意图和价值) 的研究。从对齐的角度来看，我们更关心人工智能系统是否追求不对齐和有害的目标，而不是本身的能力强弱。因此，强调对齐属性意味着我们关注在分布之间的目标泛化，而不是能力泛化[124,19]。本节主要讨论在分布偏移下学习时保持对齐属性的问题。我们首先介绍分布偏移带来的对齐挑战 (§3.1)。然后，我们深入讨论解决分布偏移的方法，并特别讨论两类路径：(1) 算法干预 (§3.2)：旨在在训练过程中引导优化；(2) 数据分布干预 (§3.3)：旨在通过在训练过程中引入特定元素或分布来扩展训练分布，相关技术包括对抗训练[444,130,445]和合作训练[131-132] (§3.3.2) 等。在分布偏移下学习的框架如图6所示。

4 对齐保证

在人工智能系统实际训练和部署之后，进行对齐保证是至关重要的。这一过程涉及到对人工智能系统实用性的测量和评估，确保其能够达到预期的效果[537]。对齐保证可以分为三个主要部分。首先，安全测评是基础，它涉及评估人工智能系统在执行任务时最小化事故的能力。其次，可解释性是必要的，以确保人类能够理解人工智能系统的决策过程，这有助于保障系统的安全性和互操作性。最后，人类价值验证对于确保人工智能系统能够符合人类的价值观、道德和社会规范至关重要，这是人工智能融入人类社会的高级需求（如图9所示）。

5 人工智能治理

除了技术解决方案之外，人工智能治理，即规则的制定和执行，对确保人工智能系统的安全开发和部署是必要的。本节通过探讨人工智能治理的角色，治理人工智能的各方利益相关者的职能与相互关系，以及有效人工智能治理面临的一些开放性挑战三方面，对人工智能治理进行文献综述。

6 结论

在这篇综述中，本文对人工智能对齐进行了全面的介绍，人工智能对齐的目标是构建行为符合人类意图和价值观的人工智能系统。本文将对齐的目标归纳为鲁棒性、可解释性、可控性和道德性 (RICE)，并将对齐方法的范围划分为前向对齐 (通过对齐训练使人工智能系统对齐) 和后向对齐 (获取人工智能系统对齐的证据，并适当地对其进行管理，以避免加剧对齐风险)。目前，前向对齐的两个显著研究领域是从反馈中学习和在分布偏移下学习，而后向对齐则包括对齐保证和人工智能治理。与许多其他领域相比，人工智能对齐的一个特点是其多样性[806] – 它是多个研究方向和方法的紧密组合，通过共享的目标而非共享的方法论将其联系在一起。这种多样性带来了好处。它通过让不同的方向进行竞争和冲突，促进了创新和思想的交叉传播。它还允许不同的研究方向互相补充，共同服务于对齐的目标；这体现在对齐循环 (见图2)，其中四个支柱被整合成一个自我改进的循环，不断提高人工智能系统的对齐性。同时，这种研究方向的多样性提高了进入这个领域的门槛，这就需要编制组织良好的调查材料，既服务于新人，也服务于有经验的研究人员。在这篇综述中，本文试图通过提供全面和最新的对齐概述来解决这个需求。本文试图通过采用广泛且包容的对齐特征来考虑到该领域内的全部多样性。本文的对齐综述几乎关注了这个领域的所有主要研究议程，以及对齐保证和人工智能治理方面的实际实践。本文认识到对齐的边界往往是模糊的，并且有待争议。因此，在提出RICE原则时，本文用对齐的广泛特征作为明确的分类标准。同时，本文认识到维护这样的全面性综述需要长期的努力，并不断地进行审查和更新。对齐的问题和方法都紧密跟随机器学习的发展。这种快速的发展意味着新的材料和框架在短短几年后就可能过时。这就是为什么本文撰写这篇综述以反映最新的发展，并且也需要持续的维护和更新。本文通过展望未来并展示我们认为的人工智能对齐领域未来需要解决的关键问题来结束这篇综述。