人工智能正彻底改变军事作战系统,但确保这些人工智能赋能的能力真正达到任务就绪状态带来了新挑战。我们认为当前技术就绪度评估未能捕捉关键的人工智能特有因素,导致部署中存在潜在风险。我们提出新的人工智能就绪度框架,用于评估军事系统中人工智能组件的成熟度与可信度。核心论点是:一个量身定制的框架——类似于传统技术就绪水平(TRL)但为人工智能扩展——能更好衡量人工智能系统的可靠性、安全性及作战适用性。[1] 利用当前数据评估工具与测试实践,我们证明该框架近期实施的可行性。这种结构化方法为军事决策者提供更清晰洞察,判断人工智能赋能系统是否达到性能、透明度及人机整合的必要标准,从而有信心地部署,进而推动国防技术管理与风险评估领域发展。

人工智能进步为军事作战系统带来增强能力,从自主无人机到决策支持算法。[2] 这些益处伴随新风险:人工智能系统可能行为不可预测、缺乏透明度,在受控环境外表现不一致。[3] 为克服这些挑战,需要专用人工智能就绪度框架,系统评估人工智能赋能军事系统是否真正做好部署准备。本文主张国防组织应采用人工智能专用就绪度评估,类似于(但比传统指标如技术就绪水平[TRL]更全面)[1],以确保人工智能系统部署前获得合理信心。我们首先检视当前就绪度评估指标(如TRL)应用于人工智能的局限性。接着介绍具有特定标准的新框架,旨在评估人工智能系统成熟度,解释每项标准的基本原理并讨论实施考量。[4] 然后分析所提框架如何应对关键人工智能系统挑战,包括“幻觉”、缺乏可解释性及作战场景中的性能变异。最后概述框架对当前军事人工智能项目的适用性,并以将该方法整合到国防技术管理的建议作结。

军事作战系统中的人工智能与就绪度挑战

范围界定:本讨论中,人工智能赋能军事系统指嵌入作战平台与决策流程的窄焦点人工智能与机器学习应用。例如包括目标识别计算机视觉、无人载具自主导航、传感器融合与态势感知工具、建议战术或后勤行动的决策支持系统,以及情报分析自然语言处理系统。此类人工智能系统是数据驱动(常采用神经网络或其他机器学习模型),在人类监督下执行特定任务,而非拥有广泛通用智能。值得注意的是,这些人工智能模态对应核心军事功能:感知(如图像分类器识别目标)、规划/控制(如机器人载具自主寻路算法)、预测(如维护故障预测器)及决策辅助(如指挥官推荐系统)。本分析聚焦评估作战系统不可或缺的窄人工智能能力。我们不涉及推测性通用人工智能;相反,框架针对近期可能部署的人工智能子系统,各具独特就绪度考量。

传统就绪度指标局限:国防部与其他机构长期使用技术就绪水平[1](TRL)衡量新技术成熟度。TRL提供从1(观察到基本原理)到9(作战环境验证实际系统)的等级,指示技术开发与测试程度。然而,TRL主要为硬件系统设计,强调技术整合里程碑。应用于人工智能时,传统TRL评估存在多处不足。 人工智能性能在新场景中可能不可预测地退化——此现象未被简单实验室原型演示捕捉。人工智能模型可能达到TRL 7(作战环境原型),然而在面对训练分布外输入时仍失败。此外,TRL未明确考虑数据质量、模型透明度或人类信任,这些对人工智能至关重要。因此,项目可能基于整合测试宣布人工智能组件“就绪”,同时忽视未解决算法风险。确实,近期国家安全委员会观察到传统测试与评估方法对人工智能系统“不足”,且机构“缺乏通用指标评估人工智能系统按预期执行的可信度”。简言之,当前就绪度范式提供人工智能系统真实部署就绪度的不完整图景。

人工智能赋能系统的三项独特挑战

人工智能系统的若干特性使其就绪度评估比传统军事技术更为复杂。关键挑战包括:

• 不可预测行为与“幻觉”:先进人工智能模型(尤其是大型神经网络与生成式人工智能)可能无预警地产生意外或错误输出。例如,大型语言模型可能生成听起来合理但实为虚假的信息——此问题称为“幻觉”。[5] 在任务背景下,人工智能若偶尔输出错误目标识别或缺陷建议可能导致严重后果。[6] 这种不可预测性使就绪度置信度复杂化:决策者担忧若人工智能常规性不可靠,领导者将不会采纳此类系统。因此,就绪度框架必须评估人工智能系统性能是否一致,以及任何幻觉或错误倾向是否得到充分缓解。

• 缺乏可解释性(透明度):许多人工智能算法(尤其是深度学习模型)作为“黑箱”运行,意味着其内部决策逻辑对用户甚至开发者均不透明。军事领导者与操作员需要理解人工智能系统产生建议或行动的原因,尤其在高风险场景中。[7] 复杂神经网络可能包含数百万以人类无法理解方式交织的参数;追溯输入如何导致输出功能上可能无法实现。即使无法实现完全可解释性(因许多模型本质复杂),框架应考虑人工智能带来的“黑箱”风险水平。[8] 确实,专家指出缺乏透明度与可解释性是先进人工智能能力最大担忧之一。因此,人工智能就绪度评估必须考虑系统是否为其输出提供足够透明度或理据。

• 跨场景性能不一致(鲁棒性):人工智能系统可能非常脆弱——在类似训练集数据上表现极佳,但在边缘案例或新环境中失效。目标识别人工智能可能在晴朗天气中卓越,但在雾天或对抗伪装时失败。与通常以可预测且可重复方式失效的机械系统不同,人工智能失效可能依赖情境且难以预期。研究表明当前人工智能模型“在性能能力边缘运行时通常脆弱,且难以预期其能力边界”。[9] 这种脆弱性意味着通过一种场景测试的人工智能可能无法推广至其他场景。传统技术就绪水平演练(例如单次现场演示)可能无法揭示这些弱点。因此,评估人工智能就绪度需要更广泛基于场景的测试与鲁棒性评估——即条件变化或面对旨在混淆其输入的(例如对抗性输入或意外数据)时人工智能保持性能的程度。框架必须说明是否已完成此类压力测试及人工智能如何处理变异性。

• 数据依赖性与质量问题:人工智能系统性能与可靠性根本取决于用于训练和测试的数据质量。[10] 若训练数据存在偏差、不完整或不能代表真实操作条件,人工智能行为将反映这些缺陷。人工智能可能在开发中表现良好,但在真实冲突中遇到全新数据模式(例如,主要基于沙漠地形训练的视觉人工智能在丛林地形部署时可能挣扎)。数据问题也可能表现为漏洞,例如系统可能易受毒化或虚假数据欺骗。传统就绪度指标不检查训练数据适用性或测试数据覆盖充分性。因此,人工智能就绪度评估应包含数据就绪度组成部分,确保系统训练与验证数据集在规模、多样性与准确性上对预期任务足够。还应考虑是否有机制在获得新数据或对手适应时更新或重新训练模型。

• 人机系统集成与信任:最终,人工智能能力“就绪度”不仅关乎技术本身,还关乎围绕它的人类操作员、指挥官与流程。[11] 例如,若操作员未受训有效使用或因其不信任建议而忽略之,则高度先进的人工智能目标辅助毫无用处。过去军事系统自动化经验表明,人类可能过度信任(对自动化盲目信赖)或信任不足(直接拒绝其建议),具体取决于系统呈现方式及其提供反馈。因此,就绪度部分是人类就绪度:终端用户是否理解人工智能能力与局限?是否开发了适当将人工智能输入纳入决策的程序?是否有关于人工智能人类监督的明确条令(例如,何时允许自主行动与何时需要直接人类干预)?国防部采纳负责任人工智能原则与人机协同研究强调人工智能补充人类决策并保持“人类判断持续核心地位”的重要性。因此,人工智能就绪度框架应明确评估该系统的训练、条令与用户信任状态。

总之,人工智能赋能军事系统带来不可预测错误、不透明推理、情境特定失效、数据风险与复杂人机集成需求的挑战。我们解决的问题是如何以结构化方式评估这些挑战对特定待部署人工智能系统是否已得到充分缓解。下一节介绍拟议的人工智能就绪度框架,旨在通过纳入针对这些人工智能特定问题的标准,同时构建类似于技术就绪水平的分阶段就绪度概念以填补此空白。

拟议的人工智能就绪度框架

为弥补评估缺口,我们提出人工智能就绪度框架作为评估人工智能赋能作战系统的结构化方法。该框架通过增加针对人工智能特有风险与性能维度的定性标准,扩展了熟悉的就绪度概念。框架受技术就绪水平启发,设想从初始开发到战场部署的分阶段里程碑,但通过聚焦人工智能关切的五项关键就绪度标准增强这些里程碑。拟议标准包括:(一)对齐性;(二)合理置信度;(三)治理;(四)数据就绪度;(五)人员就绪度。每项标准代表人工智能系统成熟度与适用性的关键方面。人工智能系统需通过全部五项标准评估以确定是否满足各项最低可接受标准,类似于必须通过的“关卡”才能达到全面作战部署。通过评估这些维度,指挥官与采办专业人员可识别需改进领域,确保系统部署前不遗漏任何人工智能风险。下文定义并论证每项标准,讨论其基本原理与重要性,并指出其引入的局限性与权衡。我们还考虑如何用当前或预期数据与工具测量各项标准,评估框架实际采纳的可行性。

  • 对齐性

定义:对齐性指人工智能系统的目标、行为及输出与人类指挥官设定的预期目标、伦理约束及交战规则保持一致的程度。[12] 简言之,对齐的人工智能会执行我们期望的任务——且不违背我们意图——即使在复杂或新情境中亦然。

原理与重要性:对齐性可谓首要标准,因未对齐的人工智能可能不仅是中性工具失效,而是主动责任。在军事行动中,对齐性意味着人工智能的行动或建议必须保持在合法命令、任务目标及伦理考量(如避免平民伤害)的界限内。超越传统性能指标,它涉及确保人工智能不会追求非预期目标或以有问题方式解读其任务。例如,控制巡飞弹的人工智能必须识别并尊重禁射区或停火条件——不应“创造性”寻求授权外目标。对齐性还包含缓解人工智能决策中的偏见。若情报分析人工智能与指挥官优先级对齐,则不应因训练数据偏见而持续歪曲或遗漏信息。确保对齐性解决以下关切:人工智能系统可能产生战术有效但战略或伦理不可接受的结果。它还直接关联国防部原则:人工智能使用必须对人类判断与法律标准负责。[13]

应对人工智能挑战:该标准通过施加检查确保人工智能输出遵循已验证真相或授权界限,帮助应对人工智能幻觉或异常行为的风险。[14] 例如,对齐的人工智能语言模型将通过训练或基于规则的过滤器约束,不捏造已知数据外信息,从而减少幻觉。对齐标准还将纳入伦理符合性验证测试——本质是用各种场景对人工智能进行红队测试,观察是否产生禁止行动或建议。若发生,则未通过对齐就绪度。尽管对齐测试不能保证捕捉所有潜在失效(人工智能在真正前所未有情境中的行为可能无法预测),但它设定了提前发现明显错配的标准。实践中,新兴技术如对抗性场景生成与对齐奖励建模是可应用工具,使该标准随当前人工智能安全研究进步愈发可行评估。[15]

局限性与权衡:测量对齐性具有挑战性。它部分属于规范性判断——即何为足够对齐?要完全确保对齐性是不可能的,尤其对于部署在开放环境中的人工智能而言。因此,框架需定义对齐性阈值(例如,若广泛测试表明未违反特定约束集,则判定人工智能通过对齐性就绪度)。其中也存在权衡:为确保证对齐性而对人工智能施加严格约束,可能会降低其有效性或要求采用简化的模型设计。例如,对学习算法添加严格的基于规则的检查,可能会抑制其产生创造性解决方案的能力——这可能是利(更安全的行为)也可能是弊(潜在的性能非最优)。然而,鉴于未对齐的人工智能行为可能带来灾难性后果,本框架的设计偏向于谨慎。

可行性:利用当前工具,可通过结构化场景测试、伦理检查表及符合已知指令部分评估对齐性。随着人工智能治理工具成熟,我们预期更多自动化对齐审计(例如,扫描人工智能决策日志以检测目标函数偏差迹象的软件)。总之,对齐性是定性但关键的就绪度关卡:人工智能系统不应在指挥官满意其以正确方式追求正确目标前部署。

  • 合理置信度

定义:合理置信度指基于证据的保证,确信人工智能系统将可靠地执行其预期功能,且其行为保持在可接受的风险边界之内。该标准关乎一种植根于测试与验证的信任——即拥有严格的证据证明系统在预期条件下能按设计运行(并充分理解其失效模式)。它包含经典性能指标(如准确率、错误率),但更进一步,要求对人工智能在压力、不确定性及与其他系统或人类交互条件下的行为建立信心。

原理与重要性:合理置信度这一术语源自国防人工智能文献,它强调操作员与领导者需要对人工智能建立有充分依据的信任,而非盲目的信念。一个人工智能系统要达到就绪状态,仅开发者有信心是不够的——这种信心必须由评估过程中产生的透明数据所证明。该标准本质上要回答:该人工智能是否经过了充分测试?测试结果是否能证明在战斗环境中可以信任它?它强调对人工智能进行稳健的测试与评估及验证与确认。传统的技术就绪水平可能只关注原型演示是否成功,但合理置信度则要求获得跨一系列场景的性能统计证据与经验证据。这包括测量误报率与漏报率、失效频率以及不确定性带来的影响。人工智能国家安全委员会最终报告强调,实现可接受的人工智能性能通常涉及理解并接受某种程度的风险。[9] 我们的框架通过要求决策者评估所演示的性能(及其边界)对于当前手头任务是否可接受,从而将这一点显性化。例如,若一个人工智能在理想条件下有百分之五的错误率,且在边缘案例中错误率可能更高,那么该风险在特定上下文(例如,它是控制致命武器还是仅提供建议)中是否可容忍?只有当答案是肯定且有充分理由时,我们才称其具备了合理置信度。

应对人工智能挑战:该标准直接针对性能不一致性与脆弱性的挑战。要建立合理置信度,必须在多样化条件(包括边缘案例)下测试人工智能。假设我们有一个自主载具人工智能,合理置信度意味着它已经在尽可能多的不同环境与对抗条件下进行了充分的测试驾驶,并且其处理能力达到了要求的标准。该框架将鼓励采用积极压力测试和针对人工智能的红队测试等实践(正如人工智能国家安全委员会所建议的,以发现人工智能可能失效的点)。它自然也涵盖了随时间推移的可靠性——应持续收集监控与验证结果,以确保模型性能不会从其原始状态发生漂移。一个重要方面是,合理置信度包含人在回路时的性能表现。例如,如果一个人工智能在孤立测试中表现良好,但在团队设置中会迷惑人类操作员,那么我们就不能对其在真实世界中的性能有信心。因此,该标准与人员就绪度有所重叠,它也要求任何人机团队动态不得导致性能降级。本质上,合理置信度是所有测试证据的积累,用以得出结论:人工智能将按预期执行。通过坚持这一点,该框架缓解了部署那些能通过基础检查却在压力下失效的人工智能系统的风险。

局限性与权衡:一个局限性在于获得完全的置信度是不可能的——总存在未知的未知因素。该框架不要求完美,但要求证明:即经过文档化的测试、对人工智能能力与局限的清晰理解。另一项挑战是广泛的人工智能测试所带来的资源与时间消耗。与可能只需少量测试条件的物理系统不同,一个人工智能可能需要数千次模拟出击或测试用例才能建立统计置信度,尤其是对于安全关键的功能。这可能会延缓部署速度并增加成本(例如,这是谨慎与速度之间的权衡)。然而,考虑到人工智能在战斗中失效的潜在高昂代价,这种权衡是必要的。现代工具如仿真环境、数字孪生和自动化测试框架使得大规模测试比以往更加可行,并且对某些人工智能行为进行形式化验证的技术也在不断改进。

可行性:目前,国防部正在投资专门的人工智能测试基础设施(例如,首席数字与人工智能办公室提到的联合人工智能测试基础设施[16])。这些设施提供了能够支撑合理置信度评估的数据流水线和验证套件。因此,尽管具有挑战性,通过投入足够的测试与评估资源并利用先进分析技术来测量人工智能可靠性,这一标准是可以用现有技术实现的。

  • 治理机制

定义:人工智能就绪度语境中的“治理机制”指为监督人工智能系统开发、部署与生命周期管理而实施的组织与流程措施。这包括符合伦理准则、法律要求与安全标准;建立问责结构;人工智能模型的版本控制与配置管理;以及人工智能部署后持续监控与改进的计划。本质上,治理机制确保人工智能系统嵌入规则与监督框架中,以持续管理其风险。

原理与重要性:治理机制是技术就绪度讨论中常被忽略的标准,但对人工智能至关重要,因为这些系统具有动态且可能持续演化的特性。机器学习模型若用新数据重新训练可能会发生变化;其性能可能发生漂移。若缺乏强有力的治理,部署时已就绪的人工智能可能变得“未就绪”。此外,军事人工智能使用受政策(如国防部“负责任人工智能原则”[13]及国际法承诺)指导,这些政策必须在系统全生命周期中始终遵守。治理就绪度意味着项目已完成以下工作:制定人工智能风险管理计划,对人工智能进行独立审计或同行评审,确保在人工智能行为不当时有备用方案或“紧急停止开关”,并为操作员建立问题报告渠道。它还审查采购与合同是否包含关于人工智能性能与数据权的必要条款(以避免军方受困于无法更新或检查的黑箱模型)。简言之,治理机制确保部署人工智能系统不会超越机构对其的控制能力。这能培养长期信任:人们对具有可见监督与问责机制的人工智能更有信心。例如,若部队知悉存在明确协议规定当人工智能输出可疑结果时应采取的措施(且有人在高层级监控人工智能决策),他们可能更愿意使用它。

应对人工智能挑战:治理机制通过强制流程纪律与问责,间接应对可解释性与安全问题。例如,具备治理就绪度的人工智能项目会为其训练数据与算法提供文档与可追溯性,符合使人工智能“可追溯”或至少为外部审查提供文档记录的理念。这有助于缓解黑箱问题,不是通过神奇地解释人工智能内部机制,而是通过确保开发者提供尽可能高的透明度(例如模型卡片、已知局限、预期使用条件)。治理机制还涵盖人工智能输出的使用方式:是否存在标准操作程序要求对人类审查人工智能生成的目标或建议?若存在,即使人工智能出现轻微幻觉,治理流程也能在造成危害前发现它(例如,可要求情报人工智能的报告须经分析师审核后方能影响决策)。此外,治理意味着系统部署时配备监控钩子——记录性能、检测异常并在需要时触发重新评估。这种持续监督至关重要,因为它承认我们无法在测试中预测所有情况,而是在作战中设置安全网。框架的治理检查将确认此类安全网的存在。

局限性与权衡:侧重治理机制可能被某些人视为官僚主义。它可能带来额外文书工作与审批延迟(例如,部署前等待伦理审查或外部审计)。然而,治理措施是为对强大人工智能能力保持谨慎而故意设置的摩擦。一局限是治理质量难以量化——完全可能存在仅流于形式的流程。框架需定义具体治理指标(如“独立测试机构已根据X标准认证该人工智能”或“人工智能安全委员会审查系统并发布建议,且建议已实施”)。另一挑战是保持治理敏捷性:过于僵化的控制可能抑制人工智能系统的快速迭代,鉴于人工智能改进速度快,此问题尤为突出。因此,框架呼吁治理而非停滞——理想平衡是存在监督但能快速响应(例如,战时加速流程仍包含基本检查)。

可行性:实施治理就绪度主要关乎政策与组织行动,国防部已在推进。例如,国防部首席数字与人工智能办公室的“负责任人工智能”倡议[16]正通过治理机制创建工具包以确保“对人工智能赋能系统的合理置信度”。我们预期通过遵循新兴标准(如国家标准与技术研究院人工智能风险管理框架或北约人工智能治理指南[17]),项目能满足此标准。这可能涉及对项目经理与指挥官进行人工智能风险治理的额外培训,此乃当前差距但正被国防界认可与解决。

  • 数据就绪度

定义:数据就绪度评估支撑人工智能系统的数据是否充分且适合任务。这包括训练数据的质量、数量、多样性与相关性,以及用于维护的持续数据流水线的可用性。在本框架中,高“数据就绪度”意味着人工智能已在全面、具代表性的数据集上训练,并在作战相关测试案例上测试,且具备随条件演变获取新数据的流程。

原理与重要性:数据是人工智能的燃料。在军事人工智能项目中,最常见失效点之一非算法本身,而是用于训练的数据。若数据差,即使最先进的人工智能也会表现不佳或行为不可预测。忽略数据的就绪度评估会遗漏根本问题——例如,隐藏偏见可能导致人工智能误识别某类目标,因该类目标在训练中代表不足。通过显式评级数据就绪度,我们促使开发者将数据视为系统开发中的一等公民。这意味着提出以下问题:我们是否收集足够真实世界数据或高保真模拟数据?是否覆盖人工智能将面对的场景范围(昼/夜、不同地形、不同对手战术)?我们如何验证与清理数据?是否存在已知缺口?数据就绪度概念还延伸至测试数据:人工智能性能应在反映真实任务条件的测试场景中评估,而非仅在训练集或简单案例上。此外,框架将审查项目是否具备从战场持续馈送新数据给人工智能(用于更新或再训练)的基础设施——对作战环境可能变化的长期系统至关重要。强调数据就绪度使框架符合人工智能开发常为百分之八十数据准备与百分之二十编码的现实;系统就绪度取决于其数据允许的程度。

应对人工智能挑战:通过评估数据就绪度,框架鼓励收集多样化数据集以避免脆弱性。例如,若无人机视觉人工智能仅经夏季图像训练,其数据就绪度对冬季作战而言较低;承认该事实迫使采取补救行动(获取冬季数据)。数据就绪度还应对生成式模型的某些幻觉方面:若语言模型旨在提供事实简报,高数据就绪度意味着其经核实的军事领域知识训练并可能连接数据库——因具备坚实事实基础减少幻觉虚假信息的倾向。关于可解释性,虽数据质量本身不使人工智能更可解释,但精心策划的数据可消除导致模型行为异常的虚假相关性。它还有助于对齐性:若希望人工智能与人类价值观对齐,训练数据应包含人类监督的正确行为示例。本质上,数据就绪度是预防性指标:确保人工智能在部署前“见过”所需见的内容,从而预防许多失效模式。

局限性与权衡:一局限是为每个可设想场景获取高代表性数据可能极困难,尤其对于尚未遭遇的未来战斗环境。存在收益递减风险——收集更多数据仅带来边际收益。此外,某些军事数据稀缺或生产成本高(例如,实弹战斗数据出于明显原因)。然而,框架不要求完美,而是要求认知:若数据缺乏,应明确记录并制定缓解策略。此处权衡是坚持数据就绪度可能因收集数据而延迟项目,或迫使依赖合成数据。合成或模拟数据有助益但可能无法完美捕捉现实,过度依赖本身就是风险。因此,框架可能对重度依赖模拟训练的系统给予中等数据就绪度评级,并要求尽快用真实数据验证。

可行性:可通过评估训练数据集统计量与测试结果现测量数据就绪度。存在建议的量化指标(如输入特征空间覆盖率、数据质量指数等)供项目采纳。组织也日益意识到数据需求——例如,创建大型军事图像数据集或兵棋推演场景库以训练人工智能。因此,纳入数据就绪度检查具实践性,且它迫使项目要么获取所需数据,要么明确声明其数据局限(从而告知指挥官人工智能哪些情境可能风险较高)。

  • 人员就绪度

定义:人员就绪度评估人员要素——终端用户、操作员、指挥官及保障人员——为有效运用人工智能系统所做的准备程度。这包括关于人工智能的培训教育、制定其使用的战术技术与程序、用户界面设计与可用性,以及用户对人工智能输出的信任度/校准度。我们可将其类比为“人员就绪度”,与人工智能的技术就绪度形成互补,确保回路中或回路上的相关人员准备就绪。

原理与重要性:军事能力绝非孤立存在;即使自主系统也在人类指挥架构内运行。人工智能可能满足所有技术标准,却仍因操作员误用或决策者误解其报告而在战场上失败。因此,人员就绪度至关重要。该标准强制评估者追问:用户是否经培训能解读人工智能的建议?他们是否了解其局限与失效模式?是否存在关于如何部署与监督人工智能的条令?例如,若指挥参谋收到人工智能规划工具的建议,他们是将其视为众多输入之一(如预期)、盲目遵从还是完全忽略?每种结果都可能发生,唯有通过培训与恰当整合才能实现理想中间状态——人工智能得到恰当运用。此外,人员就绪度关注界面设计等问题——人工智能输出是否清晰呈现?操作员是否能从人工智能获得解释或置信度以辅助其决策?若人工智能发出警报,操作员是否知道采取何种行动?该标准很大程度上关乎人机系统集成,这一研究领域因人工智能进步而焕发新紧迫性。“人机协同”概念与此相关:系统就绪并非仅因人工智能本身优异,而在于人机团队能有效完成任务。因此,人员就绪度检查旨在确保人员与程序与技术同等就绪。

应对人工智能挑战:人员就绪度对缓解可解释性与信任问题至关重要。我们不苛求人工智能提供完美解释,而是确保人类理解足够内容以在边界内信任系统。培训有助用户掌握人工智能“心智模型”(即使算法复杂,类比与经验可教会操作员何时依赖它、何时保持怀疑)。例如,与人工智能副驾驶(如自主僚机无人机)协同的飞行员需与该系统进行训练架次以建立适度信任。研究发现若未经刻意努力,人类可能过度信任人工智能(导致自满且未能捕捉其错误)或信任不足(导致拒绝使用可能救命的能力)。通过测量人员就绪度,我们要求此类培训与校准发生的证据:例如,操作员展示正确使用人工智能的野战演习,或表明操作员理解人工智能准确率与局限的调查。人员就绪度还包括确保领导层认同——若指挥官不信任人工智能,他们可能未充分使用它。反之,过度炒作人工智能可能导致误用。平衡之道是就绪度的组成部分。总之,该标准确保可解释性与信任问题不仅通过人工智能设计管理,还通过用户教育与组织文化管理。它还确保存在人员监督计划:若人工智能系统行为异常,人员是否准备就绪并被授权干预或关闭它?若非如此,系统不应视为完全就绪。

局限性与权衡:评估人员就绪度可能主观。它可能依赖定性判断(例如,评估员访谈军人了解其对人工智能的适应程度)。然存在规范化途径:培训完成率、演习表现、甚至基于模拟的认证——操作员须在人工智能辅助场景中正确响应。另一局限是时序:人员就绪度常仅在人工智能临近部署时方能充分达成,因其需实际系统(或高保真模拟器)进行训练。这意味着人员就绪度可能滞后于其他标准。此处存在权衡:未经广泛用户训练快速推出人工智能可能带来事件风险,而等待所有用户完全受训可能延迟有用能力列装。框架建议至少达成最低人员就绪度(例如,关键人员受训且初始战术技术与程序已定义)方可首次部署,随后在早期作战使用中持续提升人员就绪度。

可行性:军方已建立可资利用的培训管道与模拟环境。例如,若战斗机加装人工智能,部分测试应包含飞行员在模拟器中与之训练——这些环节的指标(如任务成功率或飞行员反馈评分)可衡量人员就绪度。条令与手册可作为采办过程部分起草以指导恰当运用。此皆未超出现有能力;仅需将其认可为就绪度的正式组成部分。事实上,视人员就绪度与技术就绪度同等重要在航空安全等领域常见——我们坚持飞行员须获新系统认证。人工智能亦须如此:人工智能赋能系统的“机组”(可能是操作员或维护模型的开发者)必须被认证为就绪。框架因而使人员就绪度成为显性检查点。

框架标准总结:当人工智能赋能系统在全部五个维度上获得满意评分时,可称其达到完全就绪度(类比技术就绪水平九级):其目标与指挥意图对齐,严格测试带来合理置信度,治理与监督机制到位,数据基础坚实,且人类操作员准备就绪并完成集成。若任一项欠缺,框架将指示该领域部署存在未化解风险。此多标准方法确保整体评估。重要的是,框架非承诺消除所有人工智能风险;而是将其揭示以便做出知情决策。某些情况下,系统或可在某标准仅部分满足时(因紧急需求)部署,但短板将被知悉且采纳缓解策略。其他情况下,某标准低分(如对齐性或置信度)出于安全原因应成为拦路虎直至修正。此结构化检查表本身即优势:它强制项目经理记录如何处理可解释性或数据偏见等议题——这些议题原本或被忽视。

运用框架应对关键人工智能挑战

本框架的主要动机是更好地应对人工智能特有的挑战。在此我们明确考量拟议标准如何应对“幻觉现象”、缺乏可解释性及实际应用性能不一致等指挥官经常质疑的问题。我们也承认框架在完全解决这些问题上存在局限性。

缓解幻觉与不可预测输出:在本框架中,“目标对齐性”与“合理置信度”标准协同作用以应对幻觉与无意义输出。“目标对齐性”标准确保人工智能通过设计与约束保持真实且专注任务。例如,具备目标对齐性的军用人工智能聊天机器人将连接经过验证的数据库并设有禁止编造事实的规则——这种方法已知可减少幻觉现象。同时,“合理置信度”要求对人工智能输出进行彻底测试。若某人工智能在试验中持续出现百分之十的幻觉率(类似研究人员在某些模型中观察到的现象),框架将标记其为未就绪状态。只有通过改进——如集成验证模块或简化模型——将该错误率降至可接受水平,系统才能通过置信度标准。实践中,这可能涉及采用“检索增强生成”等技术(该技术在测试中将幻觉率降至千分之一)。框架因而并非消除幻觉可能性,而是拒绝批准系统直至该可能性被最小化并量化。它还确保利益相关方知悉任何残留的幻觉风险。例如,若用于情报分析的人工智能助手仍可能偶尔产生异常错误陈述,指挥官将通过就绪度评估知悉其“目标对齐性/置信度”不完善,且人类分析员必须对特定输出进行复核。因此,幻觉问题在当前技术允许范围内得到应对——主要通过要求对齐技术与广泛验证。框架无法承诺的是绝对消除不可预测输出;相反,它确保其要么被控制在低概率水平,要么系统不予部署。

提升可解释性与透明度:框架通过“治理机制”与“人员就绪度”标准应对可解释性与透明度问题。“治理机制”推动文档化、标准化及可能采用“可解释人工智能”方法。使用更简单模型或包含解释模块(如图像人工智能的显著图高亮其“所见”区域)的系统,其就绪度评分将优于同等性能的不可解读黑箱系统。此外,“治理机制”将确保即使模型本身不完全可解释,部署也包含相应措施,如要求人类分析员为指挥官解读并情境化人工智能输出。在人员方面,框架要求通过培训使操作员尽可能理解人工智能逻辑。例如,若人工智能为用于目标识别的神经网络,操作员应接受关于该网络所用特征类型及其已知失效案例的培训,从而有效建立对人工智能的心智模型。这极大弥合了可解释性鸿沟——人工智能内部可能不透明,但其行为模式应为用户所知。框架也明确承认人工智能可解释性低的情况:在就绪度评估中,这将显现为风险项(如在“治理机制”下标注:“模型为黑箱;未实施事后解释机制”)。若该风险未通过额外工具或人工程序得到缓解,系统可能无法通过就绪度评估。若高性能但不可解释的人工智能被视为必要,框架至少要求进行审慎决策:领导层必须在知悉弊端的前提下放弃可解释性要求。总之,框架通过要求技术或程序解决方案以实现透明度,尽可能应对可解释性挑战。它并非魔术般使不透明人工智能变得清晰,但确保该问题不被忽视。我们也承认并非所有人工智能决策都能完全可解释——这是已知的开放性问题——但框架的立场是:不可解释的情报本质上不可信。因此,存在严重可解释性问题的人工智能可能被标记为未完全就绪,或仅限特定用途使用,从而激励开发者从初始阶段就纳入可解释性技术。

确保跨真实场景的稳健性能:当现实条件偏离训练环境时,人工智能系统常常陷入困境。我们的“合理置信度”与“数据就绪度”标准通过强调多样化测试与数据覆盖直接回应此问题。举例说明性能不一致现象:某视觉人工智能在实验室照明条件下工作正常但在黄昏时分失效。在本框架下,此缺陷将通过审查训练数据(“数据就绪度”将指出模型主要基于日间图像训练,降低其夜间操作数据就绪度评级)或测试(“合理置信度”试验将显示黄昏时段结果不佳,未能通过性能保证要求)来揭示。补救措施包括收集更多黄昏图像并重新训练(数据改进),然后通过附加测试。实际上,框架流程是迭代的:若人工智能在特定场景中未能泛化,则表明其未就绪——但此失败能准确告知开发者需要修复的环节以提升就绪度(获取新数据或调整模型)。此外,“目标对齐性”标准可间接支持一致性:良好对齐的人工智能可能被设计为能够识别何时超出其能力范围,从而交由人类处理或转入默认安全模式,而非继续猜测。此类行为可防止在未预期情境中出现灾难性失效,并在就绪度评估中获得认可。值得注意的是,没有任何框架能保证在真正不可预见条件下的性能(战争本质上充满意外)。然而,通过要求严格的压力测试与场景多样性,我们极大减少了“未知的未知因素”。我们也纳入持续监控理念(源自“治理机制”)——这意味着若人工智能在实战环境中遇到新场景,其性能将被记录与审查。若出现新的失效模式,则将触发重新评估。总之,框架使人工智能的一致性(或缺席)变得可见且可操作。在广泛场景中展示稳定性能的系统获得批准;那些表现不一致的系统要么被暂缓部署,要么在严格限制条件下(如“禁止在X条件下使用”)部署,这再次确保指挥官清楚认识其局限性。

通过明确聚焦这些挑战,拟议框架提供了更精细的就绪度评估方案。它并未完全解决所有人工智能问题——某些问题,如深度可解释性或绝对无幻觉保证,仍是待解的研究难题。然而,它整合了当前最佳实践来管理这些挑战:强制执行对齐以最小化偏离目标的行为,要求可靠性证据,集成人类干预以弥补人工智能的遗漏,并通过治理机制响应问题。在框架无法彻底解决挑战的领域,它要求保持透明度。例如,若经所有努力后人工智能仍存在百分之一的不可解释错误率,框架不会隐藏这一事实;它将记录在就绪度报告中,以便在作战规划中充分考虑该风险。相较于可能简单认证系统就绪却从未应对这些人工智能核心关切的传统方法,这是一个显著的改进。

实施考量与可行性

将人工智能就绪度框架从概念转化为实践需要付出努力,但利用当前及新兴工具具备可行性。每项标准均可依托现有方法论实施:

目标对齐性:实施目标对齐性检查可采用红队演练,即专家尝试寻找导致人工智能行为失当的场景。人工智能安全研究中的技术,如对抗测试与基于人类反馈的强化学习,可在开发过程中应用以引导人工智能实现对齐行为。框架的对齐性评估可参考此类演练结果及符合性检查清单(例如确保人工智能符合国防部伦理人工智能指南)。[13] 我们预见随着国防界经验积累,将形成标准化对齐性评估规程——类似于网络安全领域的渗透测试。过渡期间,可通过专题专家小组评审人工智能设计及行为日志以识别目标失配迹象,从而定性评估对齐性。

合理置信度(测试与评估):人工智能测试与评估工具集日益丰富。仿真环境(针对无人机、车辆等)允许在虚拟战斗场景中重复安全地测试人工智能。此外,国防部人工智能测试基础设施计划旨在提供通用测试数据集与指标。例如,人工智能目标识别算法或需针对标准化图像集或场景进行测试,且必须在不确定度狭窄范围内达到特定准确率。形式化验证技术虽有限,但可用于特定组件(尤指较简单人工智能或系统基于规则的部分)以数学证明某些属性(如“除非目标被分类为敌对且置信度超过百分之九十九,否则不会开火”)。流程方面,项目需在日程中分配更多时间进行广泛人工智能测试,可能包括对抗条件下的现场试验。此乃转变但非不合理——类似转变曾发生于软件成为系统重要组成部分时(引入软件测试阶段)。关键在于尽早并持续集成人工智能测试;自动化测试工具(如持续集成流水线——在模型更新时重新运行测试套件)有助管理此过程而不造成过度负担。

治理机制:确保治理就绪度主要关乎政策采纳与执行。这可能涉及在采办项目中设立“人工智能就绪度评审委员会”,类似飞机飞行就绪度评审。此类委员会将验证文档完整性(如数据来源已记录、模型版本控制已落实),已完成人工智能使用的适当法律审查(尤其涉及武器自主性时需遵守如国防部指令三千点零九号[19]等指令),且已指定负责人进行持续监控。技术层面,治理可通过追踪系统促进——例如记录模型每次更改及其性能影响的人工智能模型管理平台。可行性上,国防部可强制要求系统中任何人工智能组件部署前需附“人工智能安全案例”报告,类似安全认证。国家标准与技术研究院人工智能风险管理框架[20]提供符合治理检查的风险识别与控制模板;利用此类框架可使治理标准可操作化。此处主要挑战在于文化与流程,而非工具缺失。

数据就绪度:部分人工智能项目已有数据就绪度概念。数据剖析与验证工具存在——例如可计算数据集多样性统计量,或使用人工智能本身扫描数据标签偏见。合成数据生成工具(如仿真引擎或生成模型)可填补已识别缺口。框架将促使项目明确规划数据:例如若人工智能需针对罕见事件训练,项目或需投资高保真仿真器或利用盟友历史数据(如果可用)。只要将数据视为采办组成部分(例如确保合同规定训练数据交付或作战数据收集权),可行性总体良好。最大障碍是关键数据属保密或难获取;此类情况下,就绪度评估或保持低位直至纳入该数据,可能限制初始部署于类似测试环境。随时间推移,作战数据积累将提升数据就绪度,框架鼓励该反馈循环。

人员就绪度:实施此标准需与训练司令部及条令制定者协调。可行步骤包括在操作员训练课程中添加关于新人工智能系统的模块,创建含人工智能的仿真场景供部队练习,以及编写或更新包含人工智能作用的野战手册与战术指南。调查与用户研究可测量信任度与理解度;这些可由军方常为新装备配备的人因团队执行(例如引入新飞机或软件系统时,人因评估属常规流程)。主要要求是不将人工智能系统仅视为设备,而是改变工作方式的能力——因而需要培训甚至组织变革(如在总部设立“人工智能官”角色监控人工智能输出)。框架的人员就绪度可通过里程碑具体化:例如百分之X操作员通过系统认证,开展领导层桌面演习评估决策集成,或进行有限能力试用部署并收集反馈。所有这些利用当前实践均可行;仅将试验测试与训练概念扩展至人工智能领域。

数据与工具支持:所幸框架多数评估可获分析工具支持。例如可为开发中人工智能系统创建仪表盘,显示各就绪度标准进展:通过测试案例数(置信度),收集所需数据百分比(数据就绪度),完成培训时数(人员就绪度)等。此量化有助管理流程并为决策者提供就绪度快照。此外,可行性重要方面在于评估执行者。理想情况下,独立评估团队(或属测试界或首席数字与人工智能办公室)将对各项目应用人工智能就绪度框架,类似独立测试评估员对硬件所做。第三方评估确保客观性并克服开发者乐观偏见。独立团队可利用所讨论全部工具与方法生成人工智能就绪度报告。项目与评估员学习测量对齐性或人员信任等指标时或经历初期成长阵痛,但预期迭代改进。

总之,利用当前技术与组织结构实施人工智能就绪度框架可行,尤在高层支持将人工智能保障作为优先事项时。框架主要将现有最佳实践(来自软件工程、测试、培训等)统一整合。它亦可扩展:可轻量应用于低风险人工智能(如后勤人工智能或无需详尽流程),或严格应用于高风险人工智能(如自主武器)。通过现在试点项目应用这些标准,国防界可优化流程并建立有效方案知识库,为采办政策正式采纳此类框架铺平道路。

结论

人工智能融入军事作战系统要求重新思考就绪度与风险评估方式。本文提出结构化人工智能就绪度框架,以解决传统就绪度评估应用于人工智能的短板。我们断言无此框架,我们或部署技术可操作但未真正为复杂高风险战争环境做好准备的人工智能能力。通过引入目标对齐性、合理置信度、治理机制、数据就绪度与人员就绪度标准,我们将评估超越纯技术功能性,纳入伦理、组织与可靠性考量。我们论证了每项标准并展示其如何共同应对关键人工智能挑战:降低人工智能系统行为不可预测可能性,突显可解释性与用户信任需求,确保跨多变场景的稳健性能。

本框架契合技术就绪水平精神但适配人工智能独特需求,为军事决策者提供更细致“检查清单”在宣布人工智能系统任务就绪前使用。它保留现有评估大部分内容——例如要求作战条件演示——同时增加数据质量与人因等领域深度。此举未完全消除人工智能所有不确定性;而是揭露这些不确定性并施加更高证据与监督标准。传统流程或放行的系统,在本框架下必须多方面赢得信任。我们还概述了当前数据、工具与流程如何可行地实施框架,表明此非遥远理想而是可实现的近期改进。

最终,人工智能就绪度框架关乎创新责任:利用尖端人工智能于国防同时严格管理其衍生风险。随着人工智能技术持续演进,此框架可更新——如需可添加新标准(例如若未来人工智能系统具备战场强化学习能力,我们或添加在线学习安全标准)。但核心洞察不变:人工智能就绪度是多维的。希望借此方法制度化,军方将避免悲剧性意外,转而部署官兵与指挥官可托付生命与任务的人工智能。在人工智能能力快速演进时代,确保全方位就绪度将成为成功集成人工智能者与受其陷阱所害者的关键区分点。本文所提框架是朝向国家安全领域成功、安全、有效采纳人工智能的一步。

成为VIP会员查看完整内容
1

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《解码人工智能的结构性风险动态》
专知会员服务
38+阅读 · 2024年7月13日
《量子技术与军事——革命还是炒作?》
专知会员服务
24+阅读 · 2024年1月23日
万字长文《机器人的崛起: 人工智能武器化》
专知会员服务
71+阅读 · 2023年6月19日
《可信人工智能: 将人工智能融入美国陆军知识体系》
专知会员服务
150+阅读 · 2023年4月12日
最新《可解释人工智能》概述,50页ppt
专知
10+阅读 · 2021年3月17日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员