《美国空军部人工智能赋能系统的测试与评估挑战》2023最新195页报告（含slides）

报告总结

美国空军部（DAF）的空天兵力是在 75 年的全面、严格的全军测试与评估（T&E）政策、流程和实践的基础上发展起来的。一大批指定的测试人员、持续的资金投入、专门的测试组织、测试基础设施、终身的测试与评估教育和培训以及独特的测试文化，这些因素的结合在塑造当前兵力方面发挥了重要作用。如果没有高度规范的系统工程测试方法，没有在作战的各个方面持续关注测试与评估，今天的 DAF 的能力和安全性都将大打折扣。

DAF 领导人在要求开展这项关于测试、评估和评价人工智能赋能系统在作战条件下的性能的研究时，认识到了在整个 DAF 中快速、大规模地整合人工智能（AI）所固有的机遇和挑战。将人工智能赋能的能力整合到 DAF 中的程度有限，迄今为止采用的步伐缓慢。根据人工智能和相关领域的当前趋势和预期技术发展，对此类能力的需求和整合预计将大幅加快。

美国国家人工智能安全委员会（NSCAI）在 2021 年 3 月发布的最终报告中指出，"要对人工智能系统有合理的信心，就必须保证这些系统在与人类和其他系统交互时能按预期运行。传统遗留系统的测试与评估在提供这些保证方面效率低下。为了最大限度地减少性能问题和意外结果，需要一种全新类型的测试与评估"。NSCAI 建议，所有军种都应 "建立测试、评估、验证和确认（TEVV）框架和文化，将测试作为需求说明、开发、部署、培训和维护的连续组成部分，并包括运行时对操作行为的监控"。本委员会赞同 NSCAI 的这一建议。

DAF 领导人现在必须解决人工智能 T&E 对整个 DAF 的普遍影响。DAF 尚未将 AI T&E 作为优先事项，以匹配其对其他 T&E 能力的历史投资。例如，DAF 尚未建立一支 DAF 范围内的人工智能专家队伍，也未实施必要的人工智能 T&E 框架。同样，DAF 也没有建立企业级的 T&E 政策和基础设施来支持测试自主或人工智能赋能的自主系统，无论是孤立的还是集成在系统架构内的。相反，当前人工智能能力的测试与评估在很大程度上依赖于临时和定制的流程和程序。DAF 当前人工智能测试与评估的临时性和缺乏正式指导，使本委员会评估 DAF 当前评估方法的工作变得更加复杂。与以前的 T&E 资源相比，人工智能 T&E 需要更多的投资；部分原因是以前的 T&E 以资源不足而闻名，而且人工智能系统非常复杂。不过，在过去两年中，国防部长办公室（OSD）联合人工智能中心（JAIC）建立的人工智能技术与评估利益共同体（CoI）的工作推动了这些投资。如本报告所述，目前 DAF 无法成功纳入基于人工智能的解决方案。如果 DAF 测试和评估人工智能的能力得不到重大改进，DAF 将无法成功地将人工智能纳入 DAF 系统。为了承认 NSCAI 的研究结果和有关人工智能测试与评估的相关建议，并使 DAF 能够部署高效、安全和负责任地使用的人工智能赋能的能力，DAF 领导人必须优先考虑人工智能测试与评估。正如委员会在整个报告中详细描述的那样，他们应该认识到人工智能测试与评估在整个人工智能生命周期中的重要性，而不是像传统武器系统那样，将其划分为不同的开发测试与评估和作战测试与评估（OT&E）阶段（见第 3.2 节）。委员会认为，这种优先排序包括但不限于以下方面：

培养独特的人工智能测试与评估文化
建立具有足够权限的全军人工智能测试与评估管理机构
为人工智能技术与教育提供专门和持续的必要资源
将数据收集和整理纳入人工智能测试与评价管道
创建必要的虚拟环境和模拟，以创建模拟数据或用于强化机器学习
强调人类-系统整合（HSI），如人类-人工智能团队合作
培养人工智能测试与评估（AI T&E）人才队伍

这些缺陷凸显了整个联邦政府在建立组织和机构范围内的人工智能 T&E 流程和程序方面所面临的挑战。与迅速拥抱人工智能能力的数字时代技术公司不同，DAF 类似于现在才开始在各自行业采用人工智能技术的传统公司。因此，现在正是 DAF 拟定 AI T&E 愿景、制定长期 AI T&E 战略和实施计划（包括具体和可衡量的目的和目标）的大好时机。没有时间可以浪费了：如果在人工智能技术与教育方面仍然 "原地踏步"，那么发展议程所面临的风险将是巨大的，而且随着时间的推移将成倍增加。只有将人工智能技术与教育列为优先事项，并在近期投入相应的资源，发展议程才能取得进展。对人工智能赋能的能力进行严格和全面的端到端 T&E 将大大提高 DAF 实地系统的能力，同时也让最终用户对人工智能赋能的系统和工具充满信心。

正如之前大规模开展的人工智能项目以及国防部和整个行业的数字化现代化计划的例子所证明的那样，领导者通常低估了实施数字化现代化和建立现代人工智能数据管理最佳实践所需的时间、专家人力资源和资金投入。如果不加快 DAF 基本 T&E 基础设施的数字化现代化，包括信息架构和对整个 DAF 的 T&E 数据战略和实施计划的承诺，DAF 将难以按要求的规模评估人工智能赋能的解决方案。因此，委员会建议 DAF 立即更新其对资源需求的全面分析，以确保将 AI T&E 数字化现代化工作纳入 DAF 的总体数字化转型计划，并采取措施在未来的 DAF 预算中维持 AI T&E 资源。

本报告提出的变革规模将需要专职领导、持续监督以及个人责任和问责。要取得这些成果，最好的办法是正式指定一名 AI T&E 高级官员，该官员向空军部长报告，对空军和太空部队首长负责，并拥有必要的资源和权力来实施整个 DAF 的变革。为此，委员会建议空军部长正式指定一名 DAF AI T&E 总负责人，其级别应为 DAF 中的将官或高级行政服务级别，并授予他们必要的权力，以代表两个军种的部长和首长执行整个 DAF 的变革。2022年，第96作战司令官被任命为DAF首席数据和人工智能办公室（CDAO）的人工智能测试和操作主管，这是一个积极而重要的步骤。委员会认为 96 OG 和 CC 是本报告的主要受益者之一。然而，按照目前的构成，DAF 首席数据和人工智能办公室的人工智能测试和运营主管没有权力在整个 DAF 进行委员会认为必要的范围和规模的变革，以启用和加速人工智能 T&E。因此，DAF 需要一位正式指定的倡导者，他应在 AI 和 T&E 方面具有适当的广度和深度，并具有相应的背景和扩大的权力、责任和资源。该倡导者应建立一个人工智能治理结构，包括正式划定人工智能 T&E 报告关系以及三中心、未来的美国太空兵力作战测试机构 (OTA)、DAF CDAO 以及作战航空、情报、指挥与控制 (C2)、太空和网络单位的角色和责任。这一过程应包括评估整个 DAF 需要进行哪些更广泛的组织和管理变革，以反映 AI T&E 与所有其他空军系统和能力的 T&E 之间的差异。

飞机、武器、传感器、指挥与控制以及网络系统的测试与评估与人工智能赋能的系统的测试与评估有许多相似之处。最重要的是，以前所有 DAF 能力的实战化过程中证明非常有用的基本系统工程原理同样适用于人工智能。因此，过去 75 年来一直为 DAF 提供良好服务的基础系统理论概念为制定 DAF AI T&E 战略和实施计划提供了适当的出发点。

然而，鉴于人工智能是一种以软件为中心的能力，其重大差异促使我们需要对人工智能测试与评估的几个关键方面采取新的方法。

主要差异包括

人工智能能力的开发测试（DT）与运行测试（OT）之间或初始运行测试与评估（IOT&E）与后续运行测试与评估（FOT&E）之间缺乏明确的界限。
对人工智能系统而言，迭代和增量（敏捷开发方法）软件开发和适应性测试与评估原则（AIOps 或 DevSecOps，见第 3.2 节）而非线性和顺序（瀑布式）软件开发的重要性和依赖性。
数据的中心地位（包括数据集可能出现偏差、损坏或不完整）也要求我们重视数据的收集、整理和高端计算。
基于数据的持续学习能力会不断改变已投入使用的人工智能系统，因此有必要进行持续测试。
领域适应对人工智能赋能系统的重要性和挑战。
概率或统计可预测（即非确定性）行为。
针对人工智能模型的对抗性攻击的影响和风险。
人工智能可解释性和可审计性的挑战。
要实现已投入使用的人工智能系统的持续集成和持续交付（CI/CD），就必须进行相应的测试与评估（T&E）。
新的 T&E 人工智能方法、工具和流程旨在识别和处理与人工智能相关的网络攻击及其对人工智能系统整个测试和运行生命周期的影响。
在已投入使用的人工智能赋能的系统中增加仪器设备以监控其长期性能的重要性，包括记录和分析变化的指标，因为性能和指标会随着不断学习而变化。

正如委员会在报告稍后部分所解释的，这些差异也将推动改变新人工智能能力和人工智能赋能系统的现有需求制定流程，以及测试期间如何使用和评估性能指标（见第 5.5 节）。

为以软件为中心的能力定义全面的测试与评估要求的困难在于，操作条件下的 "黑盒 "性能可能会随着更多数据的摄入而不断变化，从而产生概率或统计上可预测的行为，而不是确定性的结果。这两个同样重要的考虑因素交织在一起，就形成了当今人工智能测试与评估面临的一个基本而持久的挑战：在对新的或已投入使用的人工智能系统进行测试与评估时，要了解根据哪些要求进行测试。

在整个研究期间，人类系统界面的重要性是另一个响亮的主题。如果不改变人类与机器在更加数字化的未来中的互动方式，人工智能的巨大潜力将永远无法释放。在过去的 50 年里，人们对人机系统整合（HSI）进行了广泛的研究，但很明显，不久之后，人工智能的类型将要求人类采用不同的方法来学习如何与 "智能 "机器合作。用户界面和用户体验（UI/UX）比以往任何时候都更加重要，但要了解如何优化人机界面和评估人机界面的性能，还需要进行更多的分析。优化人类与人工智能赋能的机器之间的融合，反过来又取决于重新设计人机界面以及重新调整人类与机器的角色和职责，这将是人工智能赋能的未来最重要、最具决定性的特征之一。在人工智能赋能系统的 T&E 过程中，必须考虑人机界面和人类与人工智能团队的有效性。

随着委员会工作的进行，委员会确定，发展议程要求委员会考虑的人工智能测试与评估问题与发展议程中基于人工智能的系统采购的更大问题密切相关，密不可分。因此，委员会意识到，只有将这些问题置于更大的背景下，才能正确理解和解决这些问题，从而提出可行的建议。因此，本报告从头到尾都围绕这一主题展开。

第 1 章回顾了发展议程中人工智能的现状。报告发现，国防军正处于将现代人工智能实施（见第 1.3 节）纳入其系统和业务的早期阶段。它尚未在主要国防采购项目（MDAP）或主要自动化信息系统（MAIS）的标准采购流程中获得现代人工智能能力。第 1 章还讨论了委员会对人工智能的理解，以及人工智能实施的几个不同类别。第 1 章还报告了 DAF 人工智能相关项目的研发计划、概念验证演示或作为升级或原型集成到现有系统中。该章指出，由于缺乏针对人工智能的国防部和 DAF 标准，目前的 DAF 原型项目采用了临时性的采购和 T&E 流程。从本质上讲，这些临时方法无法扩展，也不一致。不过，所审查的项目大多遵循合理的商业惯例。本章最后对 Maven 项目进行了详细的案例研究。从 Maven 项目中汲取的经验教训为本报告的大部分结论和建议提供了指导。本章特别强调了 Maven 项目作为国防部内的人工智能探路者项目，如何强调了严格的测试与评估、采用和调整行业最佳实践以及紧跟学术界顶尖人工智能研究人员的新思路的重要性。Maven 项目和本章中的其他例子都强调了对人工智能模型进行再训练的必要性，以满足意外和不断变化的作战条件。

第 2 章回顾了人工智能和基于人工智能的系统，以确定定义并介绍人工智能和人工智能相关技术的突出方面。本章指出了数据在机器学习训练和测试过程中的根本重要性。在讨论人机协作之前，本章介绍了人工智能和人工智能测试与评估的历史概况。然后详细讨论了如何调整 DAF T&E 协议的演变，以应对人工智能技术的快速发展。该章指出，由于用户多年来对现有的非人工智能赋能的系统非常熟悉，并不断完善专门的测试与评估方法，因此对这些系统的信任度较高。该章指出，DAF T&E 团体尤其擅长评估和优化其试飞武器系统的人机互动。然而，本章的结论是，DAF T&E 实践忽视了基于人工智能的 HMI（人机界面）的重要方面。特别是，它得出结论认为，DAF 需要将其所有的采购、T&E、运行和维护流程的重点重新放在为已部署和新兴的人工智能赋能的系统赢得用户信任上。它讨论了随着人类和智能机器之间责任的转移以及新的作战概念（CONOPS）的出现，人机交互界面如何带来新的挑战。该章指出，在未来以人工智能赋能的系统广泛投入实战为特征的环境中，由于缺乏经验，DAF 只有通过特别关注卓越的人机系统集成，才能实现最高性能。本章最后强调，必须更加重视人工智能赋能的军事系统的人类就绪水平（HRL）和用户界面/用户体验，并改革未来军事系统的设计方式，以适应更加数字化的未来。

第 2 章提出了人类系统整合（HSI）领域的重要发现和建议。

研究发现 2-1：发展议程尚未制定一个标准的、可重复的流程，用于制定和评估针对人的系统整合的绩效衡量标准和有效性衡量标准。

结论 2-1：未来人类-人工智能系统的成功取决于优化人类-系统界面。必须在系统设计和开发过程中制定性能和有效性的衡量标准，包括用户信任和合理信心的评估，并在整个测试和评估过程中以及系统投入使用后进行评估。

建议 2-1：空军部（DAF）领导层应优先考虑整个空军部的人-系统集成（HSI）或 HSI，重点是在整个设计、开发、测试、部署和维护生命周期中制定和评估针对 HSI 的性能衡量标准和有效性衡量标准。

第 3 章回顾了空军历史上传统的测试与评估方法，然后讨论了为什么当前的做法不足以对基于人工智能的系统进行有效的测试与评估--特别是人工智能能力的开发测试与评估（DT&E）和作战测试与评估（OT&E）之间缺乏明确的界限。本章指出，美国国防部和国防和安全部队缺乏正式的人工智能测试与评估标准和政策。本章强调，国防部作战测试与评估（DOT&E）处已为重新设计国防部人工智能赋能系统的测试与评估提供了初步路线图，以反映国防部传统系统的测试与评估与人工智能能力的测试与评估之间的巨大差异。本章还回顾了人工智能与开发、安全和运营（DevSecOps）/AIOps 的作用，并指出在整个 DAF 加速使用敏捷方法和设计 IT 运营人工智能（AIOps）架构的重要性，这是人工智能生命周期的关键部分。本章指出，在过去十年中，商业部门，特别是自动驾驶汽车行业（见第 3.2 节），采用并完善了敏捷方法，大大推进了安全关键型人工智能赋能系统的设计和部署 T&E 方法。它还指出，为商业应用设计的 AIOps 解决方案将无法满足 DAF 的操作要求。本章介绍了作为可信度渐进衡量标准的正当信心概念，并指出开发人员、测试人员和用户应随着时间的推移，在日益熟悉系统性能限制和行为后，获得对人工智能赋能系统的正当信心。接下来，本章讨论了人工智能赋能的另一个术语 "人工智能保证"（AI assurance），在提及人工智能赋能的系统时，它与 "合理信心"（justified confidence）和 "可信度"（trustworthiness）一起取代了二元概念 "信任"（trust）。本章最后分析了与将人工智能功能集成到 DAF 系统有关的操作风险。本章强调，在操作条件下部署人工智能赋能的能力时，DAF 最终用户、项目办公室、DevSecOps 或 AIOps 团队、测试人员和领导者必须使用量身定制的人工智能风险管理框架（RMF），如美国国家标准与技术研究院（NIST）的人工智能风险管理框架，以解决人工智能生命周期每个阶段的一系列风险相关问题。第 3 章提出了一系列发现、结论和建议：

研究发现 3-1：DAF 将有类似的培训基础设施要求，以支持人工智能赋能系统的开发和维护。DAF 业务的分散性意味着培训无法由标准的商业产品提供支持。据委员会所知，目前没有现成的商业解决方案支持这些要求。

建议 3-1：空军部人工智能测试和评估冠军应概述这些培训基础设施要求并确定其优先次序，并与商业供应商协调以相应调整现有解决方案。

研究发现 3-2：空军部尚未为整合、测试、获取、开发和维持人工智能能力制定标准和可重复的流程。

研究发现 3-3：OSD DOT&E 尚未发布整个国防部范围内的正式人工智能 T&E 指南。

研究发现 3-4：人工智能能力的 DT 阶段和 OT 阶段之间缺乏明确区分。

结论 3-1：随着基于人工智能的系统的出现，缺乏正式的人工智能开发和 T&E 指导是对 DAF 的巨大挑战。

建议 3-2：空军部（DAF）领导层应优先考虑整个 DAF 的人工智能测试与评估（AI T&E），重点是彻底转变为人工智能赋能的系统在整个设计、开发、部署和维持生命周期的整体 T&E 所需的持续、严格的技术集成。

建议 3-3：空军部应跟踪国际标准化组织/国际电工委员会 TR 5469 工作组报告的出版进度，并将其作为调整人工智能系统测试与评估流程的起点。

发现 3-5：迄今为止，DAF 的人工智能贡献主要集中在计算机视觉感知和自然语言处理算法方面，尚未扩展到全面解决系统级测试与评估问题。

建议 3-4：空军部应与国防部长办公室首席数字和人工智能办公室合作，采用人工智能（AI）保证的定义。该定义应考虑系统是否值得信赖和适当解释；在其部署背景下是否符合道德规范，在背景、算法和数据集中是否存在可描述的偏差；以及对其用户是否公平。

建议 3-5：兵力部应制定标准化的人工智能（AI）测试和评估协议，以评估与人工智能相关的主要风险因素的影响。

第 4 章建议任命 DAF AI T&E 负责人，并探讨与传统 DAF 武器系统相比，为 AI 能力定义全面 T&E 要求所面临的挑战。本章讨论了作为需求用例的 "雯雯计划"，并推荐了在整个人工智能生命周期中建立人工智能测试与评估需求以及增加系统设计人员、开发人员、测试人员、项目办公室和最终用户之间互动的各种方案。本章讨论了独立红色团队作为总体需求流程和人工智能测试设计的重要组成部分的价值。最后，在研究文化和劳动力发展的作用时，本章观察了将非常成功的 DAF 测试文化调整到人工智能 T&E 时代所面临的挑战。它强调了 DAF 领导者需要立即采取的教育、培训和认证步骤，以建立和维持一支为人工智能做好准备的测试企业员工队伍。

第 4 章包含了委员会的大部分建议，具体如下：

研究发现 4-1：目前，在空军和航天部队的部长或首长级别以下，没有一个人拥有必要的权力来实施整个 DAF 范围内的变革，以成功测试和评估人工智能赋能的系统。

建议 4-1：空军部长和空天军首长应正式指定一名将官或高级文职行政人员担任空军部人工智能测试与评估（T&E）倡导者，以应对上述人工智能系统 T&E 的独特挑战。该人工智能测试与评估倡导者应具备必要的人工智能和测试与评估资质，并应被授予必要的权力、责任和资源，以确保人工智能测试与评估从项目一开始就得到整合，并获得适当资助，从而实现空军部的人工智能测试与评估愿景。

结论 4-1：与传统的 T&E 相比，人工智能 T&E 需要设计人员、测试人员和操作人员或最终用户之间更深入的持续技术整合。

建议 4-2：空军部应采用更灵活的方法获取人工智能（AI）赋能的能力，尽可能将提出的解决方案与现有的联合能力集成和开发系统要求联系起来，并遵循开发、安全和操作或信息技术操作/机器学习操作的人工智能开发方法。

建议 4-3：空军部（DAF）应通过 DAF 的系统项目办公室和项目执行官，最大限度地将人工智能（AI）需求纳入记录项目，并将人工智能测试与评估（T&E）纳入主机武器系统 T&E 总计划。

建议 4-4：空军部应建立一项活动，重点关注基于人工智能的强大系统红队，针对红队发现的威胁实施测试，并协调其投资，以明确处理红队活动的调查结果，并加强私营部门的研究。

建议 4-5：在 2020 年国防部数据战略的基础上，空军部应更新并颁布其数据愿景、战略和基于指标的实施计划，明确承认数据是 "头等物件"。这些文件应包括以下计划：

优先投资计算和存储资源及基础设施，以支持人工智能（AI）开发
广泛扩大数据收集和整理工作，用于整个人工智能规划和范围界定、设计、培训、评估和反馈活动
投资用于人工智能培训和测试的数据模拟器
为基于人工智能的系统调整私营企业开发的方法和架构

建议 4-6：空军部（DAF）应灌输一种由 DAF 领导人支持并由 AI T&E 倡导者领导的人工智能（AI）测试与评估（T&E）文化。特别是，DAF 和 DAF AI 负责人应

为所有人员提供人工智能教育、培训，并在适用的情况下提供认证，从将官和高级文职行政人员到初级人员都包括在内
对具备特定人工智能和人工智能测试与评估技能的人员进行终身跟踪和管理
将核心 AI T&E 培训置于空军测试中心之下
利用现有的人工智能相关教育和培训计划

建议 4-7：空军部（DAF）应确定整个空军部人工智能（AI）和人工智能测试与评估（T&E）技能的当前基线，制定并维持人工智能和人工智能测试与评估特定教育和培训的分级方法，通过将具有所需专业知识的人员转移到测试企业来重新平衡测试兵力，并考虑将具有人工智能测试与评估专业知识的人员安排到作战单位。

第 5 章评估了 DAF 作战系统中的人工智能技术风险。它讨论了使用人工智能赋能的系统如何在增强作战人员的能力方面产生重大效益。尽管如此，本章也指出，使用人工智能赋能的系统存在一些固有风险，DAF 必须加以解决。本章指出，人工智能赋能系统容易受到若干现实性能问题的影响，其中一些是基于对抗性人工智能攻击，另一些则是基于在作战环境中部署人工智能赋能系统的风险，这些环境的特征或背景与开发人工智能能力时所使用的代表性数据集和预期背景有很大差异。本章回顾了对手可能对操作系统中的人工智能模型发起的众多攻击。本章指出，虽然人工智能模型与其他软件产品一样会受到攻击，但它们也容易受到人工智能特有的攻击载体的攻击，这些攻击载体会操纵训练数据、运行数据或模型本身。报告的结论是，DAF 需要坚实的网络防御作为抵御此类攻击的第一道防线。DAF T&E 流程同样应侧重于检测性能下降和人工智能模型易受旨在避免检测的敌对实例类别影响的情况。最后，它描述了某些攻击，如涉及对抗性触发的后门攻击，这些攻击在触发前可能无法被最先进的测试技术检测到。

本章讨论了这一领域的学术研究和开发进展如何成为攻击者和防御者之间的升级之战。因此，本章得出结论认为，DAF 必须对基于人工智能的系统漏洞采用 "红队"（red-teaming）模式，并开发诸如运行性能监控器等缓解措施。此外，本章还指出，DAF T&E 将在模拟红队确定的攻击和测试作战系统应对这些攻击方面发挥重要作用。最后，本章还讨论了人工智能模型如何以意想不到和非直观的方式失败。因此，本章得出结论，DAF 应侧重于广泛测试，以建立对已部署模型的合理信心。

第 5 章还提出了一系列发现、结论和建议：

研究发现 5-1：现有关于人工智能赋能的系统所受攻击的研究以及缓解这些攻击的策略考虑了需要不受阻碍地访问底层人工智能模型的攻击。利用已部署的 DAF 系统固有的传统保护和缓解措施，这些攻击不太可能实用。

研究发现 5-2：针对人工智能赋能的系统的对抗性攻击的持续研究主要集中在基准数据集的性能上，而这些数据集不足以模拟操作攻击。随着对抗性攻击鲁棒性的提高，性能往往会下降。即使在基准数据集上，人们也不了解潜在性能下降与鲁棒性提高之间的权衡。更重要的是，这些防御措施都是为挫败已知攻击而设计的。这种预先训练好的防御措施对新型攻击无效。

研究发现 5-3：尚未充分了解对抗性攻击对人工智能赋能的系统的影响。

建议 5-1：空军部（DAF）应资助研究活动，调查模型抵御对抗性攻击的能力与模型在运行条件下的性能之间的权衡。这项研究应考虑一系列已知和新型攻击，这些攻击的具体影响可能尚不清楚，但可以根据最新研究进行推测。研究应探索各种缓解方案，包括直接人工干预，以确保实战系统在受到攻击时仍能继续运行。DAF 还应模拟、评估和生成针对已知和新型对抗性攻击的防御措施，并定量确定人工智能系统潜在性能损失与增强鲁棒性之间的权衡。

建议 5-2：空军部（DAF）应将国防部零信任战略应用于所有 DAF 人工智能系统。

结论 5-1：有望改善对抗性人工智能缓解的研究领域包括数据净化技术、可量化的不确定性和可认证的鲁棒性。

第 6 章将注意力转向新的、有前途的人工智能技术和能力。该章认为，即使在陆军应对其当前需求和机遇的同时，也必须评估这些新兴的人工智能趋势及其对 T&E 的可能影响。最后，本章指出，很难准确预测哪些未来人工智能能力将对空军应用产生最大影响，尤其是考虑到人工智能技术的发展速度不断加快。尽管如此，本章假设有五个领域特别有可能对 DAF T&E 产生影响：基础模型、知情机器学习、生成式人工智能、可信人工智能和用于复杂决策的博弈人工智能。报告提出了相应的结论和建议。

建议 6-1：兵力部应重点关注以下可能导致改进检测和减少人工智能（AI）腐败的有前途的科技领域：可信赖的 AI、基础模型、知情机器学习、基于 AI 的数据生成器、用于复杂决策的 AI 博弈，以及对 AI 的基础性理解。

研究发现 6-1：设计值得信赖的人工智能赋能系统的现有方法没有考虑与人工智能赋能系统互动的人类的作用。

建议 6-2：空军部应投资开发和测试值得信赖的人工智能（AI）赋能的系统。作战人员接受的训练是与基于可靠硬件和软件的先进武器系统协同工作。对于人工智能赋能的系统，必须培养这种信任和合理的信心。

研究发现 6-2：大型语言调频表现出一种被称为 "幻觉 "的行为，即模型输出不合逻辑或与所提供的输入或上下文不一致。幻觉的影响取决于任务。目前还没有衡量标准来评估大型人工智能对各种下游应用的影响。

结果 6-3：有几种大型调频可用于单一模式，其中语言是最主要的模式。DAF 任务可能涉及多模态感知和推理。基于 SSL 的大型语言模型最近才开始用于多模态配对或非配对数据。

研究发现 6-4：基于物理和其他知识的模型有可能提高数据驱动方法的稳健性和计算效率。这些模型还可以帮助实施基于物理或知识的性能边界，从而提高试验和评估过程的效率。然而，要成功部署这些模型，DAF 必须确保这些模型所依据的参数和假设在运行期间存在，这就需要对运行 T&E 给予更多关注。

建议 6-3：空军部应评估数据生成器的能力，以加强相关应用背景下的测试与评估。

发现 6-5：人工智能游戏技术的最新进展和预期进展将使空军能够构建比以往任何时候都更有能力的系统，并以更复杂的方式让人工智能参与其中，但这种系统复杂性的增加将使人类和人工智能元素之间的团队合作关系变得更加相互关联和复杂，从而对有效的 T&E 提出了更多挑战。

成为VIP会员查看完整内容