本套《军事人工智能试验鉴定模型实践》是宏理国际(INHR)与新美国安全中心(CNAS)历时两年组织中美及国际专家线上线下研讨的成果。磋商目标旨在确认代表团专家能否就含重大AI组件的武器及相关军事系统测试评估原则与实践达成共识,以提升系统运行安全性、可靠性及责任性。对话参与者含美中及国际代表团(来自欧亚等地)的学者与前官员,其专业背景涵盖军事、外交、情报、计算机科学、企业及法律领域。
AI技术融入军事系统已成全球趋势。尽管多数国家采用进程缓慢,但未来数年AI军事系统全球部署必将加速。借鉴私营领域经验,预见所有军队大规模应用AI时将面临诸多挑战。为推进AI军事系统负责任运用,AI测试评估(T&E)及保障AI军事系统安全、合法、伦理使用的其他要素势在必行。AI测试评估涵盖验证与确认流程(合称TEVV)。国际社会需就AI测试评估原则与最佳实践达成共识,既为促进遵守国际人道法(IHL),更为降低AI军事系统意外失效引发的全球风险。
AI对传统武器系统开发、测试与部署方法提出严峻挑战。尽管常规军事软硬件系统与AI系统测试评估存在共性(尤在系统工程原则层面),AI仍需T&E方法论重大变革。AI军事系统的独特性要求采用区别于既有T&E实践的定制化方案,以确保全面评估验证。军队采用混合架构(含传统非AI系统、新型非AI系统、AI改装传统系统及AI原生武器系统)的前景更增AI测试评估复杂性——这些系统可能同步运行,需考量多AI系统跨武器平台、指挥控制架构及网络交互时的级联效应与潜在涌现行为。
各国需制定明确措施持续提升AI技术安全可靠可控性(含技术安全与研发运营),增强AI技术安全评估管理能力,并确保武力使用始终由人类担责。各国必须在综合考虑作战环境与武器特性基础上,强化AI研发活动自我约束,在武器全生命周期实施必要人机交互,恪守"人类为最终责任方"原则,建立AI问责机制并为操作员提供必要训练。
本模型实践旨在帮助各国在AI系统全生命周期实施充分测试评估,以促进形成符合国际法的有效、适用、可靠、可预测、可持续、安全、可信、韧性能力。在各国积累AI军事系统开发测试部署经验前,应秉持谨慎立场——任何AI军事技术部署前须经充分测试。须遵循"预防性原则":避免引入最终效果存争议或未知的新产品/流程。
民用及军用AI赋能系统均具有显著影响测试评估(T&E)流程的独特性。这些特性不仅影响AI模型自身评估,更关乎模型集成后的整体系统。AI的独特属性要求改造传统T&E方法以确保全面评估验证。塑造AI测试评估的关键特征包括:
持续测试与监控
AI赋能系统需从初始设计到长期维护的全生命周期持续评估。这种持续性要求设计者、开发者、测试者与终端用户深度协作。在AI系统中,"测试完成"概念已然过时——AI模型的动态特性及其学习适应能力,要求建立持久评估框架保障性能与可靠性延续。
部署后演进与不可预测性
AI系统持续学习与部署后演变的潜力,加之其固有不透明性,导致操作不可预测性。因此需评估概率性或统计可预测(非确定性)行为,并建立识别缓解意外失效模式的流程。
动态学习与快速更新
AI及机器学习/深度学习系统具备无需额外编码直接从数据学习的独特能力,支持频繁系统更新(在线学习场景下更可实时适配)。此能力要求T&E流程适配已部署AI系统的持续集成/持续交付(CI/CD)模式,并强调在现役AI系统中植入强健监测工具以持续评估性能演进。
敏捷治理
AI系统需从传统线性顺序软件开发转向更灵活响应的方法。敏捷开发方法与适应性T&E原则对容纳AI动态特性至关重要。这种迭代模式允许基于持续测试结果与需求演进实现精进优化。
对抗韧性
除独立"红队演练"外,T&E流程需纳入专项测试以评估针对AI数据集与模型的针对性对抗攻击效应与风险。此方法增强AI系统在对抗环境中的鲁棒性与韧性——对军事应用尤为关键。
数据核心与算力需求
AI系统根基在于数据及其处理所需基础设施。这种数据中心性引发独特挑战:包括可能存在的偏斜、污染或不完整数据集,将显著影响系统性能可靠性。此外,AI系统通常需高性能计算设施处理复杂算法与海量数据。数据驱动特性还导致"黑箱"特征——即使开发者亦难窥内部决策过程。这对实现AI系统可解释性与可审计性构成重大挑战,而在透明度与问责制至上的军事应用中尤为关键。