神经网络的端到端优化带来了人工智能的巨大进展,这些进展有望颠覆我们生活的许多方面。与此同时,端到端的工程方法有助于确保这些人工智能系统保持在用户和开发者的控制之下。设计目标和威胁模型为基准和指标提供了依据,这些又反过来影响训练目标和数据,进而影响神经架构和算法。我将讨论这一方法的多种实际方法和考虑因素,包括多模态的优势、评估基于规则的行为、确保广泛能力模型的挑战、构建稳健的控制通道和保障措施等内容。 在过去几年中,人工智能领域已从一个仅仅是令人兴奋且充满潜力的研究领域,发展成了世界上最强大技术公司之间的国际军备竞赛。其资源已增长到天文数字,目前由OpenAI和软银宣布的价值5000亿美元的数据中心基础设施合资企业为这一领域设定了新的高点。 我在GPT-3发布几个月后开始研究生学习,当时关于大型语言模型(LLM)是否能为现实世界带来经济价值仍是一个公开的辩论话题。OpenAI的GPT-3 API在当时对除了像Harvey和Jasper这样的一小部分冒险创业公司外,几乎对所有人来说只是学术兴趣的对象。而今天,辩论的焦点已经转移到是否任何有经济价值的劳动在不久的将来将不会被人工智能自动化的问题上。 许多领先的人工智能研究人员认为,由自主AI系统完全取代人类是一种严肃的可能性。Geoffrey Hinton甚至预测,未来30年内AI导致人类灭绝的概率为10%到20%。与此同时,许多领域内的人仍然对从狭窄、封闭的基准测试中推断出来的戏剧性结论持深刻怀疑态度。Yann LeCun自信地宣称,LLM是“通往人类水平AI的绕行路”,并将有关存在性风险的讨论斥为“AI末日主义”。然而,尽管存在如此广泛的意见分歧,LeCun和Hinton都呼吁在人工智能系统中构建防护栏和更强的可控性,全球各国政府也已成立顾问机构,以跟踪先进AI的风险和后果。 事实上,虽然很少有人能就确切的预测和政策建议达成一致,但许多人共享建立可信赖AI系统的目标。 当前的AI系统在许多方面仍然存在不足之处,例如决策的可解释性,或者它们与人类价值观的一致性。许多问题是社会技术问题,我们甚至尚未达成明确的目标共识。但可信赖性另一个关键方面,即AI系统的安全性和可控性,包含了令人兴奋且定义清晰的技术问题。围绕这些问题,研究社区已经识别出了许多有前景的进展方向。通过解决这些问题,我们将能更好地为管理更强大的未来AI系统做好准备,并实现理想的社会和经济成果。
构建一个可控的AI系统意味着什么?在我看来,主要有三个标准。一个可控的AI系统应当: 1. 遵循用户指定的目标和提供的上下文 1. 在合理条件下具有稳健的泛化能力 1. 抵抗对其目标进行劫持的企图
与LLM的早期阶段相比,人工智能领域在这些标准上取得了显著进展,但同时仍有许多工作待完成。
用户可能会指定一些非正式的高层次目标,或是精确的低层次目标。这里所说的“用户”是广义的,包括最终消费者、第三方应用开发者和初期研究者。在用户的明确指示不足时,系统应当依赖相关上下文,例如与用户的先前互动,来推断出正确的行动方案。 如今,许多系统在理解明确指令方面做得相当不错,但在适当整合大量上下文信息方面仍有很长的路要走。当前聊天机器人的“记忆”功能主要依赖关键词或嵌入式搜索,这种方法可能会忽视间接相关的上下文信息,例如隐性偏好或独特的术语。
一个条件集是否合理,取决于系统设计者构建系统的意图以及用户对这些意图的理解。例如,自动驾驶车辆需要应对各种可能的驾驶条件,聊天机器人必须在长时间、多轮对话中保持连贯性。 AI系统庞大的训练语料库赋予了它们在训练分布内进行泛化的能力,但我们仍然看到在训练中没有很好表示的条件下,性能表现极为不均。对于某些应用,确实可以“让全世界都包含在分布内”,即收集一个涵盖所有可能部署设置的训练数据集。但对于许多复杂领域,这种强行推进的方法是不可行的。
未经授权的方可能会试图修改系统的原始目标,方法包括覆盖明确的指令或在上下文窗口中插入恶意内容,从而将模型的行为引导向不同的目标。在LLM之前,对抗性机器学习研究主要集中在计算机视觉模型或自动驾驶应用上。研究人员提出了许多不同的攻击方法,其中许多假设了不切实际的威胁模型,比如攻击者拥有模型架构和权重的全部知识,但现实中有效的攻击也广泛存在于文献中。研究界的共识是,这方面的工作迄今未能提供有意义的解决方案。 今天,模型提供商通常会将行为限制训练到模型中,以防生成违反使用政策的内容。然而,这些防护栏往往容易通过“AI越狱”被绕过。虽然新发布的模型现在对常见的越狱攻击具有更强的抗性,但红队竞赛表明,任何模型都无法完全抵抗决心强烈的攻击者。随着我们继续为AI系统引入额外的能力,如多语言和视觉识别,可能的攻击数量呈组合式增长。 本论文的第一章《自监督与语言-图像预训练的结合(SLIP)》源于我在与Meta的FAIR研究小组合作期间进行的一系列复制实验。我们沿袭了OpenAI的CLIP项目的做法,这是一个真正具有突破性的项目,发布于2021年,它将计算机视觉领域引入了网页规模的数据策划和预训练,成为了当前所有视觉和语言模型的第一个共同祖先,包括像DALL-E和Stable Diffusion这样的文本到图像模型,以及像GPT-4和Gemini这样的多模态LLM。在对一部分公开数据进行的小规模实验中,我们发现,将自监督学习与图像和标题对比学习相结合,能够在不同的评估环境和视觉识别任务中,显著提高图像表示质量。后来的视觉和语言预训练方法增加了越来越多的训练目标,这一趋势我们虽然无法声称是我们开创的,但无疑是我们在早期阶段就识别出来的。 在展示这项工作时,我结识了Waymo的应用研究团队,并在一次夏季研究实习中继续沿着这个方向深入,探索如何将SLIP等预训练的视觉表示应用于自动驾驶汽车。第二章《MoST:用于运动预测的多模态场景标记化》呈现了这项研究的成果,我们在其中解决了预测附近道路使用者(如其他汽车、骑行者、行人等)的运动轨迹的问题,这是Waymo在其汽车中部署的模块化自动驾驶架构的关键组成部分。通过将丰富的高维图像和点云特征与之前运动预测模型所依赖的符号化对象和场景表示结合,我们能够提高模型预测的准确性和稳健性。如今,Waymo的汽车在路上使用的更先进版本的这种方法,将许多传感器和感知信号引入了上下文中。 此时,预训练的规模已远远超过了即使是装备精良的学术研究小组在行业中的资源,我决定在LLM领域探索新的方向。在最初的GPT-4 API发布中,隐藏着一个很少使用的请求参数,叫做“系统消息”,用于向模型传达更高优先级的指令。我意识到,如果应用开发人员要实际使用这个功能来定制LLM以适应他们的特定用例,那么模型必须可靠地遵守系统消息中指定的任何规则,即使这些规则与用户指令相冲突。第三章《LLM能遵循简单规则吗?》中,我开发了一个评估方法,用于衡量LLM在像玩石头剪子布这样的简单交互场景中,遵循可验证规则的能力。我们的研究表明,各种简单而巧妙的用户消息都能说服即使是最强大的模型违反原始规则。当时,只有一小部分LLM支持系统消息或指令,但即便如此,这些模型也无法始终如一地遵循我们的规则。一年后,几乎所有模型都声称支持系统消息或指令,并且系统提示已成为“编程”LLM应用程序的普遍认可方法。然而,研究界仍然缺乏对系统提示在满足开发人员和用户期望的所有角色中的可靠性进行全面评估的方法。在《系统提示鲁棒性深入分析》中,我们整理了一个评估套件,衡量系统提示在不同设置中的可靠性。例如,我们设计了一个评估,包含多轮对话,模型需要处理不同数量的需求,如装饰名字或为场景描述添加特定的修饰语。我们还建立了对不同系统提示、冲突的用户消息、对抗性攻击、干扰性无关输入以及代理工具调用应用程序的系统提示鲁棒性评估。我们的结果表明,尽管最大的最新模型能够更加可靠地遵循系统提示,但它们仍然未能达到传统编程语言所能提供的可靠性水平。最后,我们还从一组第三方系统提示中收集了演示和偏好数据集,这些提示来自于各种在线来源。我们对这些数据集进行微调,能够显著提高模型对系统提示的遵守能力,证明了更系统化的数据收集能够显著提高模型表现,甚至超过了用于开发像Qwen和LLama这样的模型的复杂后期训练方法。