《可信深度强化学习用于多效协同防御作战：综述》

具有高度自主性的军事系统发展带来了许多作战优势。这些系统通常是高度协作的，并允许优化对复杂问题的多效应对。人工智能，包括深度强化学习，有助于提高这些系统的效率。这项工作提出了一个与信任这些算法有关问题的综合观点，并提出了一些改善人机信任的准则。这项工作是在由欧盟资助的30个合作伙伴欧洲财团委托编写的报告框架内完成的。

用于水雷战的自主水下无人机，MMCM计划实例

法国和英国在2010年启动了一项计划，评估和开发 "海上反水雷"（MMCM）能力，包括在与母舰安全距离外远程操作的无人系统。通过持续化解静态水下威胁，这些系统将提供战略、行动和战术上的机动自由，确保海上力量的安全投送，包括在海峡等高风险地区。

MMCM计划的目标是提供一种新的敏捷的、可互操作的和强大的水雷战能力。它将有助于在现有水雷战舰退役时取代它们。这一双边计划于2010年底根据法国和英国之间的《兰开斯特宫条约》正式启动。在2018年1月的法国/英国峰会上，法兰西共和国总统和英国首相申明了他们打算迅速将该系统投入作战服务[13]。

特别是，在2020年测试了四种作战方案，分别采用了：一个水面无人机及其探测声纳、一个拖曳声纳、两个水下无人机和一个水下灭雷机器人。前两种情况主要是随着任务的进行对威胁进行探测、分类和定位，其次是通过与前一次任务的数据进行比较来改变探测结果，最后是重新定位和识别几枚地雷并解除其中一枚地雷。

该计划的核心是在水下环境中自主发展的能力。这种自主性是通过使用人工智能算法，特别是DRL来实现的，以便自主地将无人机从母舰上移开[14]。尽管水下无人机必须能够自主行动，但仍有许多人机互动：任务准备、验证地雷分类和实时任务监测、授权投掷炸药。这种人机互动是由MMI（人机界面）实现的，比如你会发现下面这个界面。

有一些项目旨在优化这些关系并建立信任关系：例如，泰雷兹国防任务系统公司DxLab的AR{iA}NE项目，旨在显示操作者和人工智能之间可以有真正的互动[14]。人工智能在这里由控制台的下半部分代表。它的突出显示取决于性能指数：这就是人工智能以非常直观的方式与操作者交流的方式。这个演示设备是为工业展览准备的。它的设计经过特别考虑，给人以未来主义的印象，让客户感觉到他正在与人工智能进行交流。该控制台集成了一个软件分析界面，为声纳数据的利用提供了实质内容，因此非常适用于研究人机互动，更确切地说，是人机互动。

用于反无人机作战的轻型自主无人机

国防公司，如泰利斯、空客和MBDA，正在开发项目，旨在提供反无人机（UAV：无人机）解决方案。商用无人机的扩散化和相当便宜的价格引发了安全和保障问题。例如，在无人机和飞机之间发生了一些事件，还有一些情况，如跨越边界和在监狱中走私货物（武器、毒品），或向目标运送爆炸物。这些公司提出了智能解决方案，可以检测无人机，但也可以通过高度的自主性和人类的环形控制来消除它们。这些系统可以对敌方目标进行探测、识别、定位和消灭。反无人机问题被概念化，并通过以下步骤得到部分解决[16]：

威胁探测：利用部署在保护区域的地面传感器，如雷达、声学、射频或光电传感器来解决；
威胁分类：在威胁探测步骤中捕获的地面传感器数据上执行的后处理任务；
威胁识别：这是一项额外的后处理任务，旨在完善前一步获得的分类，最好是评估一套独特的威胁特征特征；
威胁追踪：该任务的结果是威胁所遵循的轨迹或一组轨迹。其目的是保持对威胁的关注，并将其保持在系统传感器的视野范围内；
威胁评估：评估入侵的无人机所代表的威胁程度，例如通过有效载荷分析或行为理解。执行这一步骤是为了收集情报，并可能调整对该威胁的反应；
威胁消除：使用物理或非物理损伤使威胁失效。当然，这是迄今为止最不成熟的步骤。中和技术最终应取决于威胁的性质、其威胁程度和环境条件（以避免或尽量减少附带损害）。

最新项目的目标是创建和展示一个完整的反无人机系统，能够解决上述六个步骤，并整合两个主要部分，一个地面部分和一个空中部分。地面部分可由一个作为指挥和控制站的地面控制站和一些地面传感器组成，其数量和在空间的分布可根据需要和保护空间的配置进行调整。空中部分可以由盟军无人机队组成，这些无人机可以是相同的，具有类似的能力（同质蜂群），也可以具有不同的能力，每个都有一套独特的专长（异质蜂群）。拥有一个空中段提供了两个优势。首先，在传感方面，它使系统具有盯住目标的能力，可能为人类操作员提供实时视觉反馈，但也能对敌方无人机及其有效载荷进行更详细和有效的分类和识别。第二，在消灭方面，它应该允许防御者部署更多的外科手术式的反措施，特别是避免过多的附带损害或不想要的副作用。许多国防公司正在为中和部分开发智能DRL解决方案[17]，以便在盟军无人机群中做出自主决定。DRL算法也可用于指挥和控制站，以监测整体作战情况。

用于未来战斗空中系统（FCAS）的重型自主无人机群

未来战斗航空系统（FCAS）是一个 "系统簇"，它涉及到新一代战斗机（NGF）、远程航母（RC）和一个将所有参与者连接在一起的战斗云系统： NGF、RC群、卫星、战舰、地面系统等。

远程运载器是用来做什么的？设想的应用是非常多样的：通过几十架飞机的饱和来穿透敌人的防御，诱骗敌机，执行电子战任务（干扰），为其他飞机指定目标，执行侦察任务，甚至发射导弹而不是作战飞机。这些新型机组成员为未来几十年的空中行动开辟了一个巨大的可能性领域：用无人机代替战斗机发射导弹，这样就不会有飞行员的生命危险，骚扰敌人的防线，执行侦察任务，等等。这些设备也可以假装成驾驶飞机，吸引敌人的巡逻队，为作战飞机打开缺口。在远程载具的核心，制造商正在开发人工智能算法，特别是DRL[18]，以控制每架无人机，但也控制无人机群。DRL算法出色的适应性在这里被用来管理高层和自主决策。

"系统簇"的非常高的互连性也要求建立一个抗网络攻击的战斗云。这些攻击确实可以破译通信以获取情报，甚至干扰或破坏通信，或者更糟糕的是，向半自主系统发出错误指令。DRL算法可用于应对正在进行的网络攻击。这些攻击确实可以快如闪电，而人类没有能力做出足够快的反应。因此，必须使用智能自动系统来抵御攻击。DRL似乎再次成为快速、自主和适应性行动的良好解决方案[19]。

迈向可信AI

A. 科学的信任和可解释人工智能

正如我们所说，在自主系统中使用人工智能有很多问题：伦理、法律、政治等等。这就是为什么有必要在这场技术革命的不同参与者之间建立一种信任关系，从研究人员到用户和工程师。

数学上的保证。为了确保我们提出的技术解决方案的可靠性，最好能在理论上和数学上保证算法的性能。然而，重要的是要记住，有关的保证在性质上是概率性的，因为大多数ML算法的性质是不确定的。因此，我们将试图证明，例如，如果该算法有无限量的训练数据可供支配，它就能够完成提交给它的任务。或者，人们可能会试图证明该算法收敛到一个解决方案，而且几乎可以肯定它是以一个已知的和可控的速度收敛的。这种类型的结果保证存在于许多经典的ML算法中，用于解决某些简单的问题，并受制于关于训练和测试数据的某些假设。人工智能的整个研究领域都是关于知道什么是或不是可以通过ML学习的问题，以及什么精度：可能是近似正确的学习[20]。在RL方面还有很多工作要做，它仍然是一种年轻的技术，但理论上的保证越来越多[21]。然而，这些理论结果一般都是基于非常强的假设，这些假设往往是还原性的，并没有考虑无人机在实践中使用的非常真实的环境，这有时会使它们不那么相关。

可解释人工智能。第二个轴心是要建立对人工智能所支配的自主系统的信任，即其行动的可解释性。当我们可以理解导致人工智能获得结果的原因时，一个算法被认为是可解释的。一般来说，目前可解释的ML算法（XAIs）能够报告相对简单的决定，例如指出图像的哪些区域被用来确定它是一个苹果。关于RL，为算法的可解释性设想了几条途径。

一些RL算法是以完全透明的方式建立的，它允许追踪不同代理在一段时间内做出的决定。然而，这种方法不能应用于DRL，由于使用了人工神经网络，DRL并不是完全可解释的。
表征学习是另一种方法，它试图在推理的某些阶段提取最相关的信息。
也可以训练另一种人工智能算法来解释RL算法的行动，同时相互配合[22]。其他的解决方案仍然存在，提及这些解决方案需要太长的时间，这里的兴趣主要是要意识到RL算法的可解释性正在全面发展，在未来的几年或几十年里应该会通过新的里程碑。

让我们细化前面的观点，像一些作者那样考虑人工智能算法的区别，这些算法不仅是可解释的，而且是可解释的。事实上，为了解释它们的推理，已经建立了一些后验算法，但它们并不能帮助理解初始算法的 "黑匣子"。出于这个原因，人们正在对可解释的人工智能方面进行研究，这样就可以说明导致输出的不同推理步骤[24]。即使DRL算法的参数数量非常大，仍然是广泛实施这种方法的技术障碍，但可以预期在这个领域会有明显的进展。

B. 性能信任

对受DRL支配的自主系统有信心的第二个论据是测试期间的性能测量。事实上，即使目前关于人工智能可解释性的知识状况不允许完美地理解算法是如何达到其输出的，但实践中的结果是好的，表明有非常大的发展潜力。

对其他问题进行归纳的能力。首先，用户对人工智能技术的信心可以建立在算法解决其他问题的良好能力上，或多或少有些类似。例如，众所周知，Deepmind的AlphaFold 2 DRL算法在预测蛋白质结构方面特别出色[25]。这种优秀的声誉源于该算法的大量已发表的测试研究，这让该领域的大多数科学家对其给予了极大的肯定。虽然蛋白质结构预测与自主无人机的使用无关，但将蛋白质中单个原子的放置与无人机在协作作战任务中的放置相提并论是很容易和有意义的。在前一种情况下使用DRL，以及所获得的结果，也有可能使最终用户对DRL应用于另一个领域的潜力充满信心。

算法验证。然而，与经典的ML算法不同，不可能在RL中实现我们在第一部分讨论的验证测试。这是因为所涉及的数据是随时间变化的，而且所提出的问题也是不同的。要限定所识别的对象是否被正确预测是很容易的（是的，它是一个苹果，或者不是，它是一个梨子）。另一方面，量化无人机和飞机之间合作的成功要微妙得多：许多标准必须被评估（无人机的定位、它们的速度、它们不同行动的时间）。因此，RL算法的性能测量是通过建立针对要解决的任务的指标来完成的。例如，对于负责访问一个空间区域的无人机来说，比较正确识别目标的比例、任务完成时间或其他更精确的指标是相关的，这取决于情况和要解决的具体问题。

争取在RL中实现更好的可重复性。最近还强调了RL算法的一个臭名昭著的问题，即当一些研究人员想要复制他们同事的结果时，一些算法的不稳定性[26]。实验的可重复性是科学中的一个基本问题，因为它构成了被测试定律（例如，万有引力定律）的有效性证明。在这里，算法性能的证明之一是可以让它多次承受相同的情况，并在不同的迭代中获得非常相似的结果。为了克服缺乏可重复性的问题，新的算法开发框架、新的测试程序和明确的指导方针已经到位，使科学和开发团队对他们的结果有了更大的信心。

C. 建立一个有人-无人之间的信任协作

优化人机互动

人机协作是现代（协作）战争的核心，但人类和智能机器之间的成功协作主要取决于信任。然而，安全与新兴技术中心对自主性和人工智能相关的研究[27]发现，在美国军方的科技项目投资中，789个自主性相关项目中只有18个，287个人工智能相关项目中只有11个提到 "信任 "一词。研究人员没有直接研究信任，而是将开发更透明、可解释和可靠的人工智能作为优先事项。这些努力对于培养人机团队的信任是必要的，但技术驱动的解决方案并不总是考虑这个等式中的人类因素。

对高性能技术的不充分信任会导致人工智能系统的使用不足或废弃，而对有限的或未经测试的系统的过度信任会导致对人工智能的过度依赖。这两种情况在军事背景下都有独特的风险，包括事故、友军交火、对平民的意外伤害和附带损害。为了让士兵对自主系统有信心，他们必须知道系统在遇到障碍物时将会做什么。从系统工程的角度来看，这意味着要指定和实施一些能力，如通过假设查询和信息交流进行信息检索，以便系统能够以人类操作者容易理解的方式解释其推理和行为。换句话说，"在系统中建立信任 "是一种以技术为中心的方法，通过改善与信任密切相关的系统特性和能力，如透明度、可解释性和可靠性，来建立人机团队的信任。

DARPA的Squad X计划[28]将美国陆军和海军陆战队的步兵小队与配备先进传感设备的无人地面和空中飞行器配对，以提高敌对环境中作战人员的态势感知和决策。X小队在2019年初进行的一系列实验[29]的主要收获之一是，将人工智能纳入任务的规划和演练阶段非常重要。这样做，士兵可以 "在如何信任人工智能方面进行搏斗"。最终，目标是让人类作战人员更好地了解这些自主系统在战场上的表现，并对它们作为未来任务中的伙伴更有信心。

要怎样才能让人们信任技术？在使用先进系统时，一些个人或群体是否更有可能感到自信，而另一些人则更不情愿？人机团队的部署环境如何影响信任？认知科学、神经科学、心理学、通信、社会科学以及其他研究人类对技术的态度和经验的相关领域的见解为这些问题提供了宝贵的启示[30]。

解决道德问题

"杀手机器人 "一直引起人们对潜在自主能力的恐惧[31]。法国国防伦理委员会在2021年批准在武器系统中引入一定程度的自主能力[32]。在法国，没有办法授权 "杀手机器人"。这一表述指的是LAWS（致命性自主武器系统）。这只是证实了法国几年来在这个问题上的立场。但事情很复杂，伦理委员会认为不反对引入一定程度的自主权，因此不反对使用PAWLS（部分自主武器致命系统）。将LAWS与PAWLS区分开来的是 "性质上的差异，这与人类在某些关键功能中的地位有关"。致命武器系统的设计是为了演化出自己的操作规则，并自行重新定义其任务。它们不需要指挥部对情况的评估。PAWLS可以自主地被赋予某些任务的责任和执行，但只是暂时的，而且只用于识别、分类、拦截或接触任务。道德委员会明确表示，它不能在没有人类控制的情况下采取致命的举措。即使在这个限制性框架内，也必须制定技术和组织保障措施，以防止任何过度行为。委员会认为，应继续在与国防有关的人工智能和武器系统自动化领域进行研究。其目的是避免任何 "科学和技术上的放弃"，防止对手开发致命性自主武器，并在对手使用这种武器时进行防御。

自主系统不应