万字长文《不确定性量化：军事系统中的人工智能与机器学习》2023最新报告

制定量化不确定性元数据的军事标准是解决利用人工智能/机器学习（AI/ML）军事优势所固有的问题。通过提供元数据，美国防部可以继续确定使用人工智能/机器学习的最佳策略，与能力发展同步进行。这种协调将防止在解决与在作战系统中实施AI/ML有关的困难技术问题时出现延误。不确定性量化可以使观察、定向、决定和行动循环的实际数字实施成为可能，解决在战争中使用AI/ML的道德问题，并优化研究和开发的投资。

引言

从基础上讲，美国军队不需要人工智能/机器学习（AI/ML）。然而，军队需要能够比对手更快、更好地观察、定位、决定和行动（OODA），以实现军事优势。机器有能力以比人类更快的速度进行观察、定位、决定和行动，从而实现这一优势。然而，关于允许AI或ML模型 "决定 "最佳军事行动方案是否合适的问题仍然没有定论，因为该决定可能导致破坏和死亡。

利用AI/ML的军事优势的潜在隐患已经被不厌其烦地提出来。有三个问题仍然是最令人担忧的：（1）解决赋予AI摧毁事物和人的权力的道德和伦理考虑；（2）平衡发展AI/ML能力的成本和军事效用；以及（3）确保对机器的适当信任水平，以最佳地利用对能力发展的AI/ML部分的投资。然而，作为元数据纳入军事信息的不确定性量化（UQ）可以解决这三个隐患，同时遵守美国防部的人工智能伦理原则。

美国防部的人工智能战略将AI/ML技术的成熟作为优先事项并加以激励。其结果是，试图快速实施能力的活动纷至沓来，而对能力增长的可持续性或AI/ML使用的高阶影响规划却少之又少。正如一位国防研究人员所指出的，"当技术变革更多的是由傲慢和意识形态驱动，而不是由科学理解驱动时，传统上调节这些力量的机构，如民主监督和法治，可能会在追求下一个虚假的黎明时被削弱。"

美国国防高级研究计划局认为，目前的AI/ML系统 "缺乏必要的数学框架 "来提供使用保证，这阻碍了它们 "广泛部署和采用关键的防御情况或能力。"保证需要信心，而信心需要最小的不确定性。使用AI/ML的系统的这种保证可以帮助解决道德方面的考虑，提供对开发成本与效用的洞察力，并允许其在战争中的使用责任由最低层的指挥官和操作员承担。

通过在AI/ML系统中实施不确定性量化的军事标准，美国防部可以确保对这些系统非常需要的信任。此外，如果美国防部将不确定性量化作为对开发者的要求，有可行的方法来应用现有的数学方法来确定和传播不确定性。然而，当军方将这一标准应用于信息时，它必须牢记不确定性量化的高阶效应和挑战。

AI/ML的不确定性量化

为了解决上述三个陷阱，任何军事数字系统内部和都应该要求进行不确定性量化。不确定性量化是为系统中的不完美或未知信息分配一些数字的过程，它将允许机器实时表达它的不确定性，为建立对其使用的信任增加关键的透明度。美国防部应实施一项军事标准，规定对数字系统中的每个数据或信息的元数据进行不确定性的量化标记。一旦可用，这些元数据可以通过功能关系传播到更高层次的信息使用，为AI或ML模型提供所需的信息，以始终表达它对其输出的信心如何。

理解作为元数据的UQ需要理解计量学的基础概念--与测量不确定度有关的权重和计量科学。也就是说，一个测量有两个组成部分： 1）一个数值，它是对被测量量的最佳估计，以及2）一个与该估计值相关的不确定性的测量。

值得注意的是，2008年国际标准化组织（ISO）的《测量不确定性表达指南》定义了测量不确定性和测量误差之间的区别。这些术语不是同义的："通常在被测物[被测量的量]的报告值后面的±（加或减）符号和这个符号后面的数字量，表示与特定被测物有关的不确定性，而不是误差。误差是指测量值与实际值或真实值之间的差异。不确定度是许多误差的影响"。

在军事术语中，"测量"是在OODA循环中收集和使用的任何信息。每条信息都是由某种传感器测量的，并且会有一些不确定性与之相关。作为元数据的不确定性量化将至少采取两种形式：根据经验产生的测量不确定性（基于上文概述的计量标准）和统计学上假设的不确定性（通过一些手段确定，其中有很多）。

操作员在使用具有UQ功能的系统时，可以使用系统报告的不确定性来告知他们的战术决策。指挥官可以利用这种系统在作战甚至战略层面上为各种类型的军事行动设定所需的预定义信任水平，这可以帮助操作人员在使用AI或ML模型时了解他们的权限是什么。这也将有助于采购专业人员为AI/ML能力的发展做出适当的投资决定，因为它将量化效用的各个方面。此外，在使用AI/ML的系统中提供量化的最低限度的确定性要求，可以解决上面讨论的三个隐患。

就使用AI的道德和伦理问题而言，对于 "让AI或ML模型决定将导致破坏和死亡的军事行动方案，是否符合道德或伦理？"这个问题没有单一的正确答案。正如所有的道德和伦理辩论一样，以绝对的方式处理是不可能的。

因此，美国防部应将军事行动分为三个众所周知的机器自主性相对程度之一：机器永远不能自己做的事情，机器有时或部分可以自己做的事情，或机器总是可以自己做的事情。然后，美国防部可以为这些类别中的每一类定义一个最低的确定性水平作为边界条件，并且/或者可以定义具体行动所需的最低确定性水平。决策或行动的关键性将推动UQ边界的确定。使用不确定性量化包含了在处理使用AI/ML的系统的道德考虑方面的细微差别和模糊性。

当涉及到平衡人工智能/机器学习的成本与使用时，美国防部的受托责任是确保对人工智能/机器学习发展的投资与它的军事效用成正比。如果人工智能/机器学习政策禁止美国军队允许人工智能决定摧毁某物或杀人，那么开发和采购一营完全自主的杀手机器人就没有任何意义。因此，预先定义的最低不确定性界限将使采购专业人员能够确定如何最好地使用有限的资源以获得最大的投资回报。

在能力发展过程中优化对AI/ML的信任，将需要对AI/ML采购中普遍存在的经验不足以及机器学习中不确定性量化科学的相对稚嫩进行保障。"不确定性是机器学习领域的基础，但它是对初学者，特别是那些来自开发者背景的人造成最困难的方面之一。" 系统开发的所有方面都应该包括不确定性量化的元数据标签，无论系统是否打算自主使用。

这些输出可能会被卷进更高层次的数字能力中，然后需要UQ数据来计算不确定性的传播。例如，F-16维护者的故障代码阅读器应该有不确定性量化元数据标记到每个故障读数，在源头提供这种量化。读码器本身并不打算纳入人工智能或机器学习模型，而且该数据可能不会立即用于人工智能/ML应用，但故障数据可能会与整个舰队的故障数据进行汇编，并提交给预测仓库级维护趋势的外部ML模型。元数据将跟随这组数字信息通过任何级别的编译或高阶使用。

要求将不确定性量化元数据作为一项军事标准，实现了美国防部长关于人工智能道德原则的意图，其中包括五个主要领域：

负责任： UQ为判断提供依据，为开发、部署和使用人工智能能力提供经验基础。
公平性：人工智能中的偏见可以用与不确定性相同的方式来衡量，并且是基于许多相同的统计学原理。然后，偏见可以被解决和改善。
可追溯性：要求每个层次的不确定性元数据能够保证可追溯性。机器的性能问题可以追溯到有问题的部件。
可靠性： UQ允许开发人员检查，并允许有针对性地改进最恶劣的输入因素。
可管理： UQ作为自主性信任等级的边界条件，可以用来定义实现预期功能和避免意外后果的准则。

采用这些道德原则是为了确保美国防部继续坚持最高的道德标准，同时接受人工智能这一颠覆性技术的整合。不确定性量化是实现这一目标的实用方法。

在AI/ML中建立信任

兰德公司的一项研究发现，信任是与人工智能/ML的军事用途有关的大多数担忧的根本原因。国防部研究人员指出，"当涉及到组建人类和自主系统的有效团队时，人类需要及时和准确地了解其机器伙伴的技能、经验和可靠性，以便在动态环境中信任它们"。对于许多自主系统来说，它们 "缺乏对自身能力的认识，并且无法将其传达给人类伙伴，从而降低了信任，破坏了团队的有效性"。

AI/ML模型中的信任从根本上说是基于人类对信息的确定性，无论是简单的传感器输出还是自主武器系统的整体能力。这一点得到了MITRE公司研究的支持：人工智能采用者经常询问如何增加对人工智能的信任。解决方案不是让我们建立人们完全信任的系统，也不是让用户只接受从不犯错的系统。相反，教训指出了在证据和认知的基础上形成良好的伙伴关系的重要性。良好的伙伴关系有助于人类理解人工智能的能力和意图，相信人工智能会像预期的那样工作，并在适当程度上依赖人工智能。然后，利益相关者可以校准他们的信任，并在授予人工智能适当的权力之前权衡人工智能决定的潜在后果。

通过将机器--数字或物理--视为合作伙伴，军方可以将其与人类合作伙伴的信任建立技术进行类比。健全的伙伴关系需要有效的双向沟通和加强合作的系统。"事实上，数字系统输出中的不确定性措施是没有用的，除非这种不确定性可以传达给人类伙伴。一旦机器能够量化不确定性，并且能够传达这种量化，它们也能够对输出进行评估并改进系统。

机器对其自身能力的认识的实时反馈，将通过提供每个循环中的不确定性的量化，增加机器的观察、定位和决定功能的透明度。这种反馈提高了对该特定系统的信任，并通过不确定性的传播实现了对系统中的系统的信任量化。例如，考虑遥控飞机（RPA）对一个潜在目标的视频监控。如何确定RPA的传感器是准确的和经过校准的，视频流没有被破坏，和/或操作者已经得到了关于首先将传感器指向何处的健全的基线情报？

OODA环路的每一个组成部分都有一些相关的不确定性，这些不确定性可以而且应该被量化，从而可以用数学方法传播到决策层面。在这种情况下，它将导致目标正确性的x%的传播确定性，使任务指挥官对他们的态势感知（观察）充满信心，并使他们能够更好地确定方向，更快地决定是否参与。

通过量化不确定性，并将其与各类行动所需的预定信心水平结合起来使用，决策者可以围绕那些几乎没有道德影响的军事行动以及那些有严重道德影响的军事行动创造边界条件。国防部高级领导人还可以为开发和应用人工智能/ML能力的投资比例设定门槛，并可以确保投资将被用于实现最佳军事优势。这将通过 "量化-评估-改进-沟通 "的循环为使用人工智能/ML的系统提供保证。

不确定性量化允许设置如果-那么关系，以限制机器的可允许行动空间。在另一个简略的例子中，一个空间领域意识任务可以使用红外传感器数据来识别空间飞行器。如果-那么关系可能看起来像这样：如果传感器数据与目标的关联模型的确定性大于95%，那么该目标识别信息可以在国家空间防御中心目录中自动更新。如果传感器数据与目标的关联模型的确定性大于75%但小于95%，那么机器可以尝试与确定性大于75%的信号情报（SIGINT）进行匹配，或者可以将信息发送给人类进行验证。

因此，使用量化的不确定性使指挥官能够将决策树根植于人工智能/ML模型可使用的参数中，并指导如何使用这些人工智能/ML模型。在考虑机器自主性的三个相对程度时，指挥官可以预先定义每一类行动的输入的不确定性水平，作为何时以及在何种情况下让机器决定是有意义的指导方针，明确界定使用人工智能或ML模型的参与规则。

所有武器系统，无论是否打算纳入自主性，都应在其计划的用户界面中提供不确定性元数据。了解所有输入的不确定性对传统武器系统的用户和人工智能/ML的应用一样有利。通过现在提供元数据，国防部高级领导人可以继续确定使用AI/ML的最佳治理和政策，而不会放慢技术和工程发展。任何这样的治理都可以在未来通过参考系统内组件级或输出级的量化不确定性来实施。

数学实现

将不确定性量化和传播应用于收紧OODA循环，假定功能关系可用于定义军事情况。函数关系是这种应用的最佳数学方法，因为一般可以证明函数值和输入变量之间存在因果关系，而不需要具体确定关系的确切数学形式。通过假设这些函数关系的存在，可以使用一个描述不确定性传播的一般方程式。

一个带有不确定性条款的通用函数关系看起来像：

其中y是输出，u(y)是该输出的不确定性，有n个输入变量，其相关的不确定性影响该输出。这表明y取决于n个输入变量，并且按照 "不精确概率论者 "的风格，y的精确值在y+u(y)到y-u(y)的区间内。

这种旨在改善医学实验室研究的想法的直接应用也涉及到军事决策。"与任何测量相关的不确定性及其通过定义的函数关系的传播可以通过微分（部分微分）和应用不确定性传播的一般方程来评估。"这些数学方法将捕捉到在一个非常复杂的系统中许多测量物变化时不确定性的变化。这个不确定性传播方程可以用标准的统计程序得出，最重要的是，它与函数关系的确切形式无关。

请那些更精通统计学的人将这种方法提交给进一步的案例研究，并确定在需要包括许多输入变量时，在非常大的系统层面计算传播的不确定性的可行性。已经表明，"问题越复杂，获得校准的不确定性估计的成本就越高"。这种方法通过作战级别的人工智能/ML模型（即涉及一翼或一营的交战）可能是可行的，但更高层次的战略不确定性传播（即包括政治经济或核因素的战役级模型）可能需要不可行的计算能力来实时计算。

作为输入数据集的一部分，通过机器学习模型传播测量的不确定性比使用统计方法来估计模型内的不确定性要少得多。数据科学家和人工智能研究人员将熟悉大量专注于假设机器学习模型内的不确定性的研究，但许多历史工作并没有采取调整认识上的不确定性--ML模型的训练数据量不足--与训练数据集中的测量不确定性的方法。

测量的不确定性可以被认为是数据中的噪声和/或观察中的变异性。在数字系统中实施不确定性量化时，需要对不确定性的其他方面进行量化，如领域覆盖的完整性，也就是输入数据集的代表性，以及军事问题的不完善建模，这是模型开发过程中不正确的基线假设的结果，最终植根于人类判断的不完善。

一个更现代的传播方法，可能计算量较小，可能是使用机器学习来假设不确定性。来自其他学科使用神经网络的证据显示，纳入已知的输入数据不确定性，"与不使用它们的情况相比，对做出更好的预测是有利的"。这些研究人员还建议进一步调查在贝叶斯深度学习框架中使用已知的输入数据不确定性 "作为要得出的不确定性的初始值"，这将是一种与统计学得出的不确定性协同传播经验不确定性的方式。

使用数学方法来传播不确定性，将纳入并考虑到不确定性的影响--无法解释的数据的固有随机性--以及认识上的不确定性。拟议的军事标准应将测量不确定性的要求与传播到高阶用途的要求结合起来，如机器学习或更抽象的建模和模拟。用军事术语来说，通过这种方法使UQ标准化，不仅要考虑基线观测数据的不确定性，还要考虑与方向和行动有关的数据不确定性。

军事用途的数学问题

为了继续与军事战略进行类比，功能关系描述了在OODA循环中如何获得军事优势，以及不确定性如何在该过程中传播。

在这个特意象征性的等式中，观察和定位是恒定的活动，而决策和行动是时间上的离散事件。所期望的军事效果的成功概率是基于循环中每个输入变量的不确定性的传播：操作者有多大把握(a)他们的观察抓住了现实，(b)他们以预期的方式定向，(c)他们的决定以预期的方式执行，以及(d)他们的行动没有被打乱。

这种方法的障碍在于它需要对不确定性的事先了解，这是目前无法获得的元数据，因为在经验情况下确定它的成本通常很高，而在统计情况下有许多可接受的方法来生成它。这就回到了建议的解决方案，即征收要求和标准，以提供与每个输入变量相关的不确定性作为元数据。一旦提供，汇编观测和定位数据的人工智能/ML系统可以使用元数据进行传播，并向操作者或指挥官提供情况图中的总体量化不确定性。当实时使用时，这种方法内在地捕捉了OODA循环的决策和行动步骤的各个方面。

高阶效应和挑战

一项分析表明，将不确定性信息传达给无人驾驶车辆的操作员并使之可视化，有助于提高人类-AI团队的绩效。但其他人工智能研究人员也表明，"需要更多地研究如何以对用户有意义的方式，最好地捕捉和呈现开发者的[不确定性量化]"。他们进一步指出，"让用户对他们不了解的方面有看似控制的感觉，有可能给人以清晰和知情控制的错觉，造成额外的自动化偏差，或者干脆让用户选择一个给他们想要的答案的选项。" 这一发现坚实地进入了决策理论和心理学的工作体系。有一些统计方法试图用算法来定义判断和决策，使用这些方法有风险。

一项单独的分析提供了判断和决策文献中与决策中使用不确定性估计有关的结论。该研究的结论是，向利益相关者提供不确定性估计可以通过确保信任的形成来提高透明度： "即使是经过良好校准的不确定性估计值，人们也会有不准确的认识，因为(a)他们对概率和统计的理解程度不同，(b)人类对不确定性数量的认识往往受决策启发式的影响。

作者进一步补充说，"非专业人士和专家都依赖心理捷径或启发式方法来解释不确定性"，这 "可能导致对不确定性的评估出现偏差，即使模型输出是经过精心校准的"。不出所料，关于这个问题的主要启示是，所选择的UQ交流方法应首先与利益相关者进行测试，开发人员应满足他们的UQ显示和用户界面的不同终端用户类型。例如，向数据科学家介绍不确定性量化应该与向战时决策的操作员介绍UQ不同。情报界在确定传达与军事信息相关的不确定性的最佳方法方面有着悠久的历史，因此它对 "估计概率词 "的约定可能是后一类终端用户的合适出发点。

当考虑在作战和战略决策层面使用传播的不确定性时，有可能使用传播计算可能使UQ数字变得不相关和不可用，因为在非常复杂的系统中，不确定性接近100%的期望输出。顺便说一句，这是一个有趣的结论，可能指向 "战争迷雾 "的数学证明。进一步调查计算非常大的系统级别的传播的不确定性可能会更好地阐明这个结论。

然而，这种高度传播的不确定度的潜在缺陷并不足以反驳实施不确定度军事标准的做法。包括每个级别的元数据标签，使操作人员能够检查哪些因素造成了最大的不确定性，哪些因素是指挥官可以有高度信心的，这仍然是非常有用的信息。当操作员的带宽在高压力交战之外可用时，这些元数据标签允许操作员检查功能关系中输入变量之间的协方差和相关性。这些元数据还可以被采集专业人员用于评估和改进任务，通过识别系统性错误并将其消除，以及识别造成随机错误的最严重的罪犯。

高度传播的UQ可能是不相关的，这也强调了发展健全的军事判断的永久重要性。正如在任何不确定性非常高的军事情况下，为实现军事优势，将需要具有敏锐性的操作员和指挥官。使用人工智能/ML来观察、定位、决定和比对手更快地行动，只有在行动优越的情况下才会导致胜利。胜利理论的这一层面与要求、传播和以标准化的方式交流UQ的论点不同。

最后，AI/ML要求输入数据是感兴趣领域的 "具有适当代表性的随机观察样本"。重要的是，"在所有情况下，我们永远不会有所有的观察结果"，而且在感兴趣的领域内 "总会有一些未观察到的情况"。尽管人工智能或ML算法是在一个不充分的数据集上训练出来的，但试图在数据抽样中实现对该领域的全部观察覆盖也是不理想的。

当以较高的行动节奏将人工智能/ML应用于OODA循环时，提高领域的覆盖率并不需要更多的抽样，而应该通过抽样中更多的随机化来实现，重点是确定准确的测量不确定性。上述关于已知输入数据的研究从理论上和经验上证明，将数据的不确定性纳入一系列机器学习模型的学习过程中，使模型对过拟合问题更有免疫力--当模型与训练数据集拟合得过于紧密时，就会出现不可接受的ML行为，导致在负责评估未知数据时出现不准确的预测结果。

过度拟合的问题并不是机器学习所独有的，从根本上说是由输入数据集的缺陷造成的。"简单地说，不确定性和相关的无序性可以通过创造一个更高更广的更一般的概念来代表现实的直接假象来减弱"。这导致了对该领域的最大统计覆盖，对被观察系统的侵扰最小。它还最大限度地减少了数据和元数据集的大小，从而在高阶使用中提高了UQ传播方程的计算效率。

结论

实施量化不确定性元数据的军事标准，并发展传播、评估、改进和交流该信息的能力，将为继续追求AI/ML的军事用途能力提供最大的灵活性。使用人工智能/ML系统的不确定性量化，通过沟通、透明和参与共同经历来发展这种信任，使人机团队内部能够相互信任和团结。使用AI/ML系统实现军事目标的保证需要量化的不确定性。

与军事战略的概念相联系，这种不确定性量化的整个框架有助于一个成功的组织。通过现在提供UQ元数据，国防部高级领导人可以继续确定使用人工智能/ML的最佳治理和政策，而不耽误技术和工程开发。随着作战人员使用UQ来发展对AI/ML伙伴的信任，军队的观察、定位、决定和行动的能力将比对手更快，并确保军事优势。

成为VIP会员查看完整内容