《用于国家安全的人工智能：可预测性问题》65页报告

本报告重点讨论与人工智能系统可能缺乏可预测性而导致的有关风险--被称为可预测性问题--及其对国家安全领域人工智能系统治理的影响。人工智能系统的可预测性表明人们可以在多大程度上回答这个问题：人工智能系统会做什么？可预测性问题既可以指人工智能系统的正确结果，也可以指不正确的结果，因为问题不在于这些结果是否符合系统工作的逻辑，而是在部署时是否有可能预见到这些结果。

人们越来越担心，使用不可预测的人工智能系统为高风险决策提供信息可能会导致灾难性的后果，这将破坏公众对部署这些系统的组织的信任，并可能侵蚀政府的声誉。在国家安全领域，人工智能的使用引入了一个新的不确定性来源，可能会阻碍风险管理程序，并可能使责任链变得混乱。在这个领域，可预测性问题的影响可能导致关键基础设施的安全风险、个人权利和福祉的风险、冲突升级或外交影响。

在本报告中，我们首先从技术和社会技术的角度分析了可预测性问题，然后集中讨论了英国、欧盟和美国的相关政策，考虑它们是否以及如何解决这个问题。从技术角度来看，我们认为，鉴于人工智能系统的设计、开发和部署的多层面过程，不可能考虑到所有的错误来源或可能产生的新行为。此外，即使在理想的情况下，在设计或开发阶段没有错误可以假设或检测，一旦部署了人工智能系统，仍然可能发展出形式上正确的（但不想要的）结果，这在部署时是无法预见的。

我们通过关注人机编队（HMT-AI）来分析可预测性问题的社会技术影响。人机编队代表了一种越来越普遍的人工智能系统部署模式。在HMT-AI中，人类咨询、协调、依赖、发展并与人工智能代理交换任务。由于HMT-AI结合了人类和人工的自主性，它们通过增加人工和人类代理及其环境之间的互动的数量和类型而加剧了可预测性问题。在这种情况下，我们发现可预测性问题的三个主要来源：人机交互、人员培训和（过度）信任。人机交互可能会助长不可预测的结果，因为它们可以掩盖、扭曲或过分详细地描述人工智能系统的工作原理，而培训计划可能没有考虑到人工智能技术的学习能力和HMT-AI的长期惯例建设。同样，在HMTAI中，人类代理人不加批判地接受AI系统的结果，这种过度信任的动态也可能导致无法预测的结果。

在确定了可预测性问题的一些根本原因之后，我们分析了英国、欧盟和美国的政策，以评估这些原因是否在相关的政策文件中被涵盖，如果是的话，如何以及在何种程度上被涵盖。我们确定了四个主要主题和一个缺口。它们是：控制、监督和价值调整；资源提升的方法；可信赖人工智能的发展；以及缺乏对风险管理措施的关注，以遏制可预测性问题的影响。

我们的政策分析包括八个建议，以减轻与可预测性问题有关的风险。关键的建议是将治理方法集中在HMTAI上，而不仅仅是AI系统，并将可预测性问题概念化为多维度的，解决方案集中在HMT-AI组成的共同标准和准则上。在这些标准和准则中，可信人工智能的要求是特别相关的，应该与评估人工智能系统的可预测性的标准和认证计划以及审计HMT-AI的程序结合起来。支持在国家安全中使用HMT-AI的决定的成本效益分析和影响评估应该考虑到可预测性问题及其对人权、民主价值的潜在影响，以及意外后果的风险。为了确保在部署潜在的不可预测的人工智能系统时进行充分的风险管理，我们建议调整ALARP原则--在合理可行的情况下尽量降低--作为制定HMT-AI中可预测性问题的人工智能特定风险评估框架的基础。

拟议的基于ALARP的框架将提供有用的实际指导，但仅仅是这样还不足以识别和减轻可预测性问题所带来的风险。需要额外的政策、指导和培训来充分考虑人工智能可预测性问题带来的风险。人工智能系统支持的决策的影响越大，设计、开发和使用该系统的人的谨慎责任就越大，可接受的风险门槛也越低。这些分析和建议应该被理解为可操作的见解和实用的建议，以支持相关的利益相关者在国家安全背景下促进社会可接受的和道德上合理的人工智能的使用。

建议

建议1. 政府应拨出研究经费，发展公私合作，对HMT-AI进行纵向研究。这项研究应侧重于HMT-AI中的新旧决策模式，以评估编队协议建设和培训对绩效和控制措施的影响。重点应放在为HMT-AI的具体动态定义新的培训协议，以及加快风险管理标准和HMT-AI绩效评估的发展。

建议2. 应该建立一个专门的HMT-AI认证计划，以促进行业对为HMT-AI设计的AI系统的设计要求和评估的共识。任务之间的通用性、有效的沟通、性能的一致性以及对新队友的适应性都应该包括在这样一个认证计划中。在开发不足的ISO标准的基础上，这个认证计划还应该扩展到过程的可追溯性和决策的问责制，以及评估HMT-AI信任程度的审计机制。这对于抑制HMT-AI中的过度信任和自满态度是必要的，这种态度维持或扩大了可预测性问题。

建议3. 对国家安全领域的可预测性问题的政策反应应该侧重于管理HMT-AI团队，而不是单独的AI系统。

建议4. 国家安全领域的HMT-AI的成本效益分析（CBA）应该包括对AI系统的可预测性以及技术和操作层面的相关道德风险的评估。为了促进各安全机构之间的一致评估，应该定义一个评估人工智能系统可预测性的标准量表，在这个量表上，使用（或不使用）人工智能的选择应该根据上下文的CBA以及考虑公众对风险和相关利益的态度来证明。这个尺度的定义应属于独立的第三方行为者的职权范围，即与部署HMT-AI的公共机构不同。

建议5. 与其说是 "更多 "或 "更少 "的可预测性，政策建议应侧重于可预测性的权衡，明确具体建议旨在解决可预测性问题的哪个方面，以何种方式解决，以及它们有可能加剧哪些方面，哪些缓解措施将被落实到位。政策应该认识到，可预测性是一个多维度的概念，在一个层面上可预测性的收益可能会以另一个层面的损失为代价。

建议6. 关于国家安全中人工智能可预测性问题的政策应该在正式和操作层面上解决可信度和不可预测性之间的联系。例如，应该给人工智能系统一个可修正的可预测性分数，这应该包括在对系统的可信任度的评估中。人工智能系统的可信赖性应包括成本效益分析，以评估不想要的行为在不同部署背景下可能带来的风险。

建议7. 应该为不可预测的人工智能建立风险阈值，这些阈值将围绕不可预测行为的风险严重程度映射到其自身的可预测程度（例如，划分为已知的已知因素、已知的未知因素等）。这些阈值反过来将为风险管理过程的发展提供信息，允许根据风险的可预测性及其影响对其进行优先排序。

建议8. 应该制定一个基于ALARP的框架，以评估不可预测的人工智能和HMT-AI的风险，并为任何给定的环境确定可接受的最大程度的不可预测性。这个框架应该包括: