推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

在未来的军事行动中，通过协调多智能体系统（MAS）来实施战略机动以获得对对手的优势，是一个很重要的途径。最近探索MAS协作的工作主要集中在识别、分类、验证、实施，以及通过多智能体强化学习（RL）来研究新兴的协作方式。强化学习方法可以通过探索和利用选定行动来响应特定环境中的突发行为，这有可能抑制对抗性协作，反过来又可以为各种情报、监视、目标获取和侦察任务提供机会窗口。本报告简要介绍了RL领域的突出工作及其在自主战略机动协作式MAS中的潜在应用。

1 引言

美国陆军现代化激增是由对手在多个领域（如陆地、海洋、空中、网络、电磁和空间）对美国构成的威胁所推动的，这对美国利益的威胁超出了常规战争。预计未来的战斗将在这些复杂的多领域环境中进行，人工智能（AI）将指导与人类士兵一起协同工作的机器人Agent的战术、技术和过程（TTPs）。这些机器人将聚集在一起，形成智能多Agent团队，与人类士兵有效协作，完成任务。

美国陆军作战能力发展司令部（DEVCOM）陆军研究实验室（ARL）的基本研究计划（ERPs）构建了开发和实施智能多Agent系统（MAS）的具体计划路径。此类陆军计划为美国国防行动提供了关键研究问题的答案，这些问题汇聚在一起，指明陆军未来司令部的现代化努力方向。人工智能用于自主机动性（AIMM）和新兴超限技术（EOT）是ERP的例子，明确侧重于使下一代战车具有自主感知、学习、推理、规划和机动能力。这些未来的自主系统将与人类智能体合作进行预测和规划，并通过战场上的自主机动（AIMM）和保护（EOT）向士兵提供支持。本报告重点关注需要进行的自主协作，以使多智能体系统（即人类、智能体或人类和智能体混合）在未来的军事行动中取得成功。

集成和协调的MAS将需要技术的进步，重点是超越我们目前的能力，以有效地对付同等装备的对手（同行或接近同行）的协作战略机动性。一个直接的挑战是开发能够以良好协调方式自主和智能地工作的智能体团队。这种能力要求智能体在执行关键任务时与士兵一起观察、定位、决定和行动（OODA-Loop）。虽然新的努力促进了对多智能体范式中情报的一般理解，但目前对情报的解释并不明确。最近的文献表明，基于强化学习（RL）的方法可能为实现这种技术进步提供了一条可行的途径，本文介绍的一系列工作就是证明。

在本报告中，介绍了RL领域的贡献，以及它们在军事环境中的潜在应用--特别是通过战略编队机动来抑制对手的协作，以实现战场上的超越。最小化、限制或完全抑制对抗性多Agent行为中的协作是探索和执行在模拟情况下通过RL实验得出战略机动的一种手段。此外，协作的战略机动可以通过各种RL方法学习，以告知防御部队创造机会或优势窗口的潜在途径。

为了在模拟环境中通过战略机动的RL方法实现MAS协作，我们首先介绍了近年来一些最突出的RL研究。最近在RL领域的进展（如alphago）促进了更复杂的多智能体强化学习（MARL）算法在现实世界应用。此外，近年来也有一些框架来实现多智能体协作。这些努力加在一起，可以为开发和实施多机器人协作提供一条道路，以便在为未来战场设计的多机器人系统中实现战略机动。

在下面的章节中，对近年来突出的RL方法进行了分类和概述，并表明这些方法与DEVCOM陆军研究实验室目前的研究和开发项目相一致。具体来说，本报告的重点是确定战略机动的特定算法的优势和劣势。此外，对选定的RL方法类别进行了分类，以深入了解战略机动的潜在实施，并考虑到情报、监视、目标获取和侦察（ISTAR）任务。

2. 多域作战中多智能体系统的战略机动

简单地说，战略机动可以解释为一组智能体协调他们的行动，通过战胜对手来实现一个共同的目标。破坏，是战略机动的一个特例，可以表示为对对手协作战略机动的抑制。因此，战略机动一词的使用意味着至少存在两个对立的或敌对的双方，他们处于动态的斗争中，通过限制、抑制或以其他方式破坏对手的协调或战术，并强加自己的协作战术来获得对对方的优势。

在本节中，提供了一个对抗性的交战场景，其核心是使用选定的远程资产，这些资产本质上破坏了友好部队的交战。图1显示了一个图例，描述了与所述多域作战（MDO）情景相关的选定资产和部队的军事符号学。根据MDO理论，在武装冲突中，对手的远程反介入和区域拒止（A2AD）火力系统可以被用来拒绝友军在战区的机动自由（见图1）。这是通过将情报、监视和侦察（ISR）资产与致命性和非致命性火力相结合来实现的，以攻击战略和行动支持区的友军指挥结构、维持能力和部队编队。这些地区是近距离地区作战资产（如部队和装备）的传统集结地（见图2）。对手有能力在友军后方深处识别和攻击目标，导致这些实体在地理上与战术支持区和近距离区分离，这有效地提高了友军的损耗率，即所谓的对峙。鉴于前线部队与战略和作战机动支援相分离，敌对势力可以利用这种友军孤立无援的情况，将其消灭。

图1 友军（BLUEFOR，左）和敌军（OPFOR，右）部队的资产和资源。在所描述的MDO情景中，假设BLUEFOR和OPFOR的所有资产都是自主化的编队。

图2 敌军（OPFOR）使用远程导弹和火箭炮干扰或破坏友军（BLUEFOR）战略支援区的维持行动，这使得友军无法以有利的条件与近距离地区的敌军机动部队交战。为了应对这一战略，BLUEFOR执行反击任务，以摧毁位于深火区的OPFOR远程火力系统（蓝色箭头）。从深层机动区的BLUEFOR SOF发出的三叉箭头代表了一种 "破坏 "战术，它打破了对手的队形和节奏。

图3 压制（S）或解除（N）敌方远程火力系统和ISR资产，使友军能够穿透敌方的A2AD保护伞。这使友军能够在近距离地区击败敌人，并使机动指挥官有能力利用他们的成功，迅速将部队转移到深度机动区，摧毁（D）脆弱的敌方资产并追击撤退的敌军。F表示 "固定"，可有效减缓敌军的行动。粗箭头代表部队移动的方向。

MDO理论规定了击败对手A2AD能力的计划（即对峙），以便战略和作战机动能够使前沿部署的友军以有利的条件与对手交战（即穿透和瓦解A2AD系统以利用机动自由）。在这里，我们只关注友军（BLUEFOR）野战军和军团与敌方A2AD系统交战时的渗透和瓦解部分，这可能需要在未来的战斗中使用自主MAS。此外，据推测，图1中友军（BLUEFOR）和敌军（OPFOR）的所有符号都将包含自主化的编队（例如，机器人战车、自动瞄准系统、地面和空中的机器人ISR资产）。图2和图3分别显示了利用这种符号学与自主化编队进行战略机动的情景图。

如图2所示，敌对的A2AD火力系统通过攻击战略和作战支持区来创造对峙局面。友军火力和防空部队从太空和高空监视（未显示）接收有针对性的情报，在狭窄的时间窗口内打击高价值目标（即多管火箭系统[MLRS]），以减少对手的位置调整。除了监视之外，还可以采用战略刺激--打击来穿透和瓦解对手的远程火力系统。

在ISTAR任务中，MARL可以通过利用敌军理论和敌军行动中的局部观察，战略性地照亮和跟踪敌军目标的位置。此外，经过MARL训练的具有自主能力的编队，结合高度机动和分散的空中和地面火力，可以开始压倒对手的远程防空。友军可以利用经过训练的MARL方法来利用对手的TTP，进行防空和地面火力的战略机动。这些具有自主能力的编队根据从战略空基刺激收集的监视数据选择地理位置。随着对手的远程火力系统被消灭，战略和作战支援部队能够向前方的作战部队推进（机动）（见图2）。

敌军利用ISR资产识别作战支援区的友军资产，并从作战纵深火力区用远程火力系统（即多管火箭炮）攻击友军。这些敌方火力扰乱了友军在该地区进行传统支援行动的能力，这反过来又导致这些活动在离部队前线更远的地方进行。这通过扩大战场和紧张的补给线而造成地理上的对峙。此外，这还允许敌方机动部队以有利于敌方既成事实的条件与近距离地区的友军作战。根据MDO的理论，为了消除对峙，友军的炮兵系统必须在敌军的火力和ISR资产部署之前识别、交战并摧毁它们。友军SOF通过破坏补给和指挥与控制（C2）节点以及为联合火力提供目标数据来协助这项工作。这在敌人的A2AD保护中创造了缺口，可以被机动指挥官所利用。在这种覆盖下，友军机动部队穿透并利用近距离和深层机动区域的缺口。

在作战区，近距离和纵深地区的联合部队的战略编队可能是自主启用的编队（即MAS），利用MARL训练的策略来利用对手的TTP（来自理论）、本地观察和ISR收集的信息。如图2所示，联合部队将协调其ISR和远程精确火力的能力，为前沿部署的BLUEFOR部队提供支持。在战略和作战单位的支持下，拥有自主能力的前线部队可以在近距离和纵深地区进行协调，以分离和击败敌方资产。这将促进消灭敌对的前沿机动部队（OPFOR），使远程火力系统容易受到地面攻击（瓦解），如图2所示。

联合火力（即友军或BLUEFOR）压制或消灭对手的远程火力系统，使友军机动部队能够进入并击败近距离区域的作战部队（见图3）。然后，友军机动部队利用这一优势，在深度机动区（见图3中的D区）摧毁敌方的助推器。这将导致剩余的敌对机动编队从近距离区域撤出，并在深层机动区域建立一个新的战线。这个过程不断重复，直到达到战略目标或打败OPFOR。这些协调活动在理论上可以通过人类士兵和自主多智能体系统之间的合作来实现。此外，鉴于目前正在积极研究开发和部署这种自主系统，预计未来的战场将需要考虑像这样的场景来规划战略机动。

本节提供了一个可以应用MARL方法训练自主化编队的场景；然而，在这种复杂的MDO环境中执行的具体RL方法还没有经过测试，或者可能还不存在。下一节阐明了与利用RL方法为未来的MDO交战训练MAS有关的一些挑战。

3 挑战

在这项工作中，我们将重点聚焦到可以指导MAS克服与军事防御MDO中战略机动相关挑战的RL方法。从技术上讲，RL是机器学习（ML）的一个分支，它超越了从数据中建立精确的预测，通过在环境中产生行动来展示学习。这种学习的展示可以被认为是一种决策形式，但更准确的描述是通过状态空间探索进行战略行动选择。

RL智能体在奖励函数的基础上进行学习（或训练），最终确定在当前情况下（即该智能体在环境中的状态），哪一个是智能体要选择的最佳行动。例如，RL智能体可以与环境互动，产生与奖励挂钩的经验，这将形成学习的策略（即一系列的状态-行动对）。然而，在后面的章节中强调，目前的RL方法可能还不够成熟，无法克服与人类类似的适应性相关的挑战，以便在新情况或环境中进行智能决策。尽管RL算法有其缺点，但它们似乎是在军事防御MDO中实现协调的MAS执行战略机动的最有希望的途径之一。

在多智能体任务中，协作通常是定义不清的，而且经常被用来表示一组智能体在某些合作任务领域中成功地执行了任务。在以前的工作中，开发并采用了各种新方法来测量执行合作任务时智能体行动之间的相互依赖性，以确认这些智能体事实上已经学会了协作。对协作的确认是确定MAS有能力与其伙伴合作的先决条件，而不是简单地采取导致某种程度的优化行动。虽然在某些情况下，最佳行为可能是可取的，但如果任务以某种不可预见的方式发生了变化，一个简单的最佳行为的智能体可能会在战场上导致灾难性的损失。因此，未来防御行动的MAS必须具有明确协作的能力。

在本节的其余部分，描述了与开发战略机动MAS有关的一些挑战，其中时间尺度、能力和局部目标可能有很大的不同（例如，MDO），但需要某种程度的协作。此外，假设更大程度的灵活协作可以促进任务执行的改进（例如，更快、更少的损失、非直观的策略、有效处理不断变化的能力/团队组成）。

随着环境在动态战场上的变化，敌对双方（至少）可能需要重复规划和预测，以便1）跟上，或2）领先于对手的规划和预测。经过RL训练的MAS能够学习这种动态的规划和预测循环。另外，如果学习智能体建立了一个关于对手协作行动的适当模型，然后采取行动破坏这种协作，也可以实现这一目标。

在一个理想的情况下，一个被选来指导MAS行为的算法将学会处理环境、对手战术和能力、自身能力（获得新的能力或失去以前的能力）、团队组成（例如，改变合作者）和局部目标的变化。然而，大多数最先进的（sota）方法受到经验的限制（正如许多RL方法的情况一样）。此外，在大多数模拟中，团队的能力和组成通常是固定的，不能为算法提供足够的数据来操作和处理任何上述的特征变化。因此，在选择一种算法来指导旨在产生战略机动的MAS的行为时，必须考虑新的或动态的事件、行为、资产和实体。

总之，目前的算法方法在复杂的军事防御MDO环境中没有达到所需的能力。目前的缺点可以分为三类。1）数据要求，由于情况的新颖性，数据是有限的，数据集不足以产生准确的预测，或者数据以某种方式被污染（例如，嘈杂、脏乱或对手的改变），2）有限的计算资源，以及3）算法不能泛化到训练期间遇到的情况之外（例如，不同的目标、改变的能力或修改的团队组成），导致狭隘或脆弱的MAS解决方案。

在下一节中，我们将更详细地讨论RL的缺点，以阐明如何克服这些问题，为军事防御MDO环境提供解决方案。为此，我们介绍了现有的RL算法的分类法。这一努力应提供对有前途的RL技术更好的洞察力，这可能有助于确定最终应用于美国国防MDO的可行途径。

4. RL技术和方法

学习算法的可扩展性是MDO中军事任务的主要关注点之一，特别是因为这种任务可能需要大量的智能体来完成一个目标。此外，军事任务可能涉及多个子任务，每个子任务都有自己的子目标，从而进一步复杂化了场景。在MDO中，预计一个子目标由无数复杂的战略演习组成，这需要MAS的快速计算，以及使用最小计算资源（如在战术边缘计算）的最佳（或至少足够）战略。因此，一个可扩展的RL算法必须考虑到：1）环境和任务的复杂性；2）智能体（伙伴和对手）的数量，以便每个智能体能够在通过RL学习过程中收集经验时正确选择行动。

环境复杂性（即智能体的状态和行动空间的大小）可以指环境的状态空间中可用的状态数量，以及该环境中智能体可用的行动方案数量。RL算法的可扩展性是指在足够复杂的状态和行动空间中，在合理的时间和计算能力内计算最优策略的能力。环境的复杂性还包括纳入额外的智能体（例如，扩展到MAS），其中状态空间被放大以考虑到额外的智能体，而行动空间的大小被乘以该之智能体的数量。

通过使用状态-动作对的表格来解决RL的可扩展性问题是不实际的，因为连续的领域会使表格无法维持，而且在合理的时间内同时更新所有智能体的表格条目是不可行的。即使有足够大的计算资源（如过多的计算机内存）来包含所有的状态，在每个状态-动作对之间的学习也会太慢。与利用表格跟踪状态-动作对相反，一个解决方案是使用非参数函数近似器（例如，权重为参数的深度神经网络）来近似整个状态空间的值。然而，函数近似器必须是可微分的，这样就可以计算出一个梯度，以提供参数调整的方向。

有两种方法来训练值函数近似器：1）增量方法和2）批量方法。增量方法使用随机梯度，在梯度方向上调整近似器的参数，使估计值和目标值之间的误差最小。然而，增量方法的样本效率不高，因此不具备可扩展性。相比之下，批量处理方法从一组经验中保存数据，并使用它们来计算函数近似值估计和目标值之间的误差。批量方法与传统的监督学习有共同之处，即结果是已知的（例如，数据被标记），计算近似值的估计值和实际结果值之间的误差。这种类型的批量学习通常被称为经验重放。重复这个过程将导致最小平方误差的解决方案。最近一个成功的经验重放的例子是用深度Q网络（DQN）玩雅达利游戏演示的。尽管函数近似法在复杂的环境中显示出了成功，但如果不考虑额外智能体的加入（即非平稳性或部分可观察性），单靠这种方法不太可能足以训练出MDO场景的MAS。

与价值函数近似法相比，策略学习方法依靠策略梯度（PG）的计算来明确优化策略，而不是间接依靠价值函数。与函数近似方法相比，PG具有更好的收敛特性。PG方法比价值近似方法更受欢迎的主要原因是它们能够在高维和连续的行动空间中有效（即在复杂环境中可扩展）。在蒙特卡洛（MC）策略梯度（例如REINFORCE算法）中，实际回报（选择行动）与一个分数函数相乘，以计算梯度。该梯度被用于策略调整（通过改变参数值）以找到最大的回报行动。MC策略梯度具有高方差，收敛速度慢，因为它使用智能体的状态-行动对在不同时间的整个轨迹来获得一个返回值。另一种可能超越传统函数近似方法缺点的解决方案是利用 "演员评论"方法。

在演员-评论家方法中，PG方程被修改为使用价值函数的近似值，而不是使用真实的行动-价值函数乘以分数（如REINFORCE算法）。这表明行为者按照评论者所指向的方向调整策略，以便使总的累积奖励能够达到最大。评论者的这一策略评估步骤可以通过使用组合值近似方法（即MC、时差-TD（0）和TD（λ））来完成。为了减少策略梯度的差异，可以使用一个优势函数。优势函数告诉我们，与一般的状态值函数相比，一个行动比另一个行动（Q值）好多少。这意味着评论者必须估计Q值。一个有效的方法是使用TD-error，它是优势函数的无偏样本，评论者对一组参数进行近似。TD(λ)资格跟踪也可用于评论者估计不同时间步长的值。有趣的是，MC（高方差）和TD方法可以与行为人一起使用，随着时间的推移（即收集的经验）修改策略。

由于MDO涉及军事任务，RL算法必须有能力与许多其他智能体协调，以实现最佳的战略机动，因此MAS的算法必须能够与大量的智能体和异质资产一起扩展。算法的另一个重要能力是处理复杂状态空间（即许多智能体）和多领域环境的大量观察能力。在接下来的章节中，我们将讨论在MDO中使用不同种类的RL算法对战略机动的影响。

无模型算法可分为非策略性和策略性算法，其中状态行动空间可以是连续的或离散的。在这一节中，讨论了无模型算法的优势和劣势，以及它们如何与战略机动相一致，从而实现MDO的目标。这一分析的目的是为寻找在MDO环境中实现战略机动性的潜在算法方法提供方向。

4.1 深度Q网络（DQN）

深度Q网络（DQN）是一种单一的RL智能体算法，它被训练用来玩行动空间离散、状态空间连续的Atari 2600游戏。DQN使用一个用Q-learning训练的卷积神经网络，从高维输入（连续图像）中学习。

DQN算法是一种有效的样本方法，因为它利用所有收集到的经验来提取尽可能多的信息。DQN足够强大，可以使用相同的超参数进行训练，玩六种不同的Atari游戏，其中智能体在其中三个游戏中的表现比人类专家更好。

然而，DQN的一个缺点是，在理论上不能保证训练好的神经网络实现稳定的Q值预测（即在不同的独立模型中，训练好的策略可能会有很大的差异）。

鉴于DQN本质上是一个单一的RL智能体模型，它应该不足以在MDO中进行战略机动。在MDO中，多智能体RL算法可能更适合，因为智能体在执行时间内典型的分散化，允许智能体彼此独立运作。此外，DQN的原始实现只利用了四个观察序列来学习Q值，这对于MDO中的战略机动来说是不够的。多个资产的战略机动通常不能在如此短的时间间隔内被捕获。事实上，这是DQN在评估的三个Atari游戏（即Q*bert、Seaquest和Space Invaders）中与人类相比表现不好的主要原因。然而，存在一些DQN的变体来解决这个问题和其他弱点。

Bootstrap DQN就是这样一个变体，它学习了一个Q网络的集合，以提高采样效率，并克服了传统DQN的不足之处。行动消除是另一种与DQN一起使用的方法，以解决大的行动空间。带有记忆类型的DQN（即循环神经网络）也可以用来处理部分可观察性。如果一个智能体需要为完成任务而导航环境，这种方法就特别有用。另外，分布式DQN返回一个分布信息，可用于评估策略风险和减少最佳解决方案周围的方差或噪音。

尽管DQN及其修改后的变体在处理比简单的Atari游戏更复杂的任务方面很有前途，但DQN方法本质上缺乏一个多智能体预测机制来进行协作战术，而这是MDO中战略机动的需要。此外，DQN在大多数情况下计算量太大，无法用于军事相关环境。最后，DQN算法方法对未见过的例子（例如，伙伴的新行为或环境中出现的实体/障碍）缺乏足够的适应性。

4.2 深度确定性策略梯度（DDPG）

在现实世界中，大多数常规任务涉及连续状态和行动空间。然而，DQN只考虑离散的状态空间和低维的行动空间。处理连续状态和行动空间的DQN的另一种方法是深度确定型策略梯度（DDPG）方法。DDPG通过结合价值函数近似和确定性策略梯度（DPG），推进了DQN方法的进展。DDPG利用行为批判的方法，可以克服连续空间的复杂性。这种无模式、非策略预测和控制算法可以执行物理控制任务（如车杆、灵巧的操纵、腿部运动或汽车驾驶）。

另一种使用深度神经网络的方法是信任区域策略优化（TRPO）。这种方法直接构建一个随机策略，而不需要演员-评论者模型（不要与环境模型混淆，这将使其成为一种基于模型的方法）。与TRPO类似，引导式策略搜索（GPS）不需要角色评论模型，而是使用轨迹引导的监督式策略学习以及一些额外的技术（例如，减少视觉特征的维度，在网络的第一层增加机器人配置动态的信息）。因此，GPS的数据效率很高，如果需要的话，可以改编成DDPG。另一方面，PILCO首先学习一个概率模型，然后找到一个最佳策略。PILCO在某些问题领域具有很高的数据效率；然而，它的计算量很大。此外，D4PG对DDPG算法提出了一些改进：分布式评论者更新、分布式并行演员、N步返回和经验重放的优先级，以实现对不同类别任务的更稳定和更好的解决方案。

从战略机动的角度来看，DDPG算法的主要缺点是它被设计成一个完全分散的单一智能体算法（即独立学习者）。因此，DDPG算法不便于在多智能体场景中进行协作。因此，使用DDPG所产生的战略机动将不会产生协作的团队行为。此外，DDPG不具备处理基于角色的多目标任务的能力，而这是军事行动中战略机动的要求。

4.3 多智能体深度确定性策略梯度（MADDPG）

RL智能体互动对于战略机动的人工智能系统至关重要，不同的智能体可能需要组成团队来抑制对手的战略合作或抑制对手的协调。Q-Learning和PG方法分别受到非平稳性和高方差的影响。为了克服这些问题，多智能体深度确定性策略梯度（MADDPG）算法扩展了一个演员评论家方法，这使得它可以通过集中智能体训练而对多智能体系统发挥作用。MADDPG框架采用集中式评论家家进行训练，并在测试期间部署分散的演员。一个评论者（每个智能体都有一个）接收每个智能体的策略，这允许开发具有潜在不同奖励功能的依赖性策略（例如，MADDPG允许训练具有相反奖励功能的对抗性团队）。相反，演员（即策略网络）在训练和测试期间只拥有本地知识。演员（通过训练）在与评论者评价一致的方向上反复改进策略。

MADDPG的一个主要弱点是，对Q函数的输入随着环境中智能体数量的增加而增加（不可扩展）。这给MDO中的战略机动性带来了问题。如果智能体需要被替换、添加、修改或移除，可能需要进行再训练。在战略机动中，智能体可能需要定期转换角色或改变能力，这对MADDPG适应军事领域构成了重大挑战。此外，频繁的再训练将使快速战略机动变得不可能。缩短训练时间将减少边缘的计算负荷，使快速战略机动成为可能。MADDPG不能适应这种极端情况。对于军事应用，希望有一个强大的对手或智能体模型，以便使作战时间最大化（即有足够的时间来执行战略机动）。

为解决其可扩展性问题，对MADDPG的一个潜在修改是形成智能体集群，为集群而不是每个智能体单独学习一个策略。在发生新事件的情况下，可以推迟重新训练的需要，因为从理论上讲，一个智能体集群将有一套处理动态情况的可变能力。此外，这将避免随着智能体的修改或新智能体的引入而增加Q函数的输入空间。然而，问题来了。我们怎样才能将一个任务分解成部分独立的子任务，并使最优分组策略的退化程度最小？

虽然MADDPG可以形成一组异质的多智能体策略，能够完成不同的任务，但这种方法不能很好地扩展到十几个智能体。随着智能体数量的增加，策略梯度的方差会呈指数级增长。因此，这种方法不太适合MDO中的战略机动，在这种情况下，必须考虑到40多个异质智能体的对抗情况。克服这一可扩展性问题的方法是均值场多智能体RL算法，该算法计算邻近智能体Q值的均值估计，当智能体之间的邻近互动变得复杂时，可能导致高误差率。此外，进化种群课程算法的设计是为了通过将遗传算法方法与RL相结合，使MADDPG具有可扩展性。随着MADDPG的进步和该方法所显示的成功，可以想象这些算法的进步会导致在模拟实验中对MDO内的战略机动性进行强有力的演示。

与MADDPG不同的是，反事实多智能体（COMA）方法对所有智能体使用一个集中的评论家，但被设计用于离散的行动空间。COMA比MADDPG更具可扩展性，但它可能导致一套同质的策略，在智能体能力充分不同、局部目标不同或奖励函数不同的情况下可能失败。与MADDPG类似，Minmax多智能体DDPG（M3DDPG）比MADDPG的原始版本增加了一项改进，允许智能体制定更稳健的策略来对抗对手（即具有对立奖励结构的竞争游戏）。然而，M3DDPG仍然无法处理异质智能体被引入系统的情况。

在具有连续状态和行动空间的环境中实施算法，有时需要利用常见的技术来操作输入或输出，如离散化状态和行动空间或将离散的策略输出转换为连续输出。转换策略输出的一个例子是OpenAI多智能体粒子环境中MADDPG的实现。在这个例子中，离散的策略组件被用来计算连续的行动。从另一个角度来看，多智能体转化器软双Q学习算法将连续行动空间离散为一组速度和角速度控制，然后可以在运动模型中使用。尽管这些技术允许在连续环境中使用这种算法，但这些算法方法没有用连续信息进行训练，这可能会限制它们在物理环境中进行战略机动的功效。

4.4 价值为本

最近的一个基于价值的MARL算法系列在非常复杂的《星际争霸2》模拟环境中被证明是相当成功的，其中根据智能体的本地Qa值学习了一个集中的联合行动值Qtot。然后通过线性argmax算子从Qa中提取一个分散的策略。这种非常简单而有效的分解方法避免了学习联合行动值，而联合行动值的规模并不大。如果增加新的智能体或用新的能力替换智能体，仍需进行再训练。然而，与MADDPG相比，它更具有可扩展性，因为单个Q值仅从局部观察中学习，避免了通过学习因子化的Qtot来学习联合行动值。但是，当有超过40个智能体时，这个系列的算法的可扩展性可能会受到挑战。为了使其更具可扩展性，已经提出了基于角色的算法RODE，其中智能体的角色是根据他们对环境的影响对他们的行动进行聚类来确定。该算法对于大量的智能体显示了非常有希望的结果。

对于战略机动，RODE算法是非常有前途的，因为各组智能体可以被分配到不同的角色，其中角色可以基于他们的行动和对环境的影响或任何其他固定的行为（对于盟友或甚至敌人）。然后，该算法可用于不同群体的战略角色转换。由于不同角色的行动空间受到限制，该算法收敛得非常快。这种算法也适合于基于角色的技术的战略使用，这可能会在未来的工作中进行研究。即使RODE是非常可扩展的，我们也不清楚当新的智能体将被添加到环境中时如何调整它；需要学习一个集中的策略以实现最佳协作。

与RODE算法相比，一种可扩展的多智能体强化学习方法部署了一种熵-规则化的非策略方法来学习随机价值函数策略，实验表明它能够扩展到1000多个智能体。如前所述，可扩展的RL算法关注环境的复杂性--系统或团队中的智能体越多，状态空间越大。RODE是有限的，因为它使用一个集中的策略，当更多的智能体被引入到环境中时必须重新训练。多智能体转化器软双Q学习算法是一种集中训练的非策略学习算法（即共享一个中央经验重放缓冲器），其执行是分布式的（即每个智能体根据其本地观察做出自己的控制决定），而不是来自中央控制器。由于这种分布式的方案，当智能体被添加或从系统中移除时，团队不受影响，继续执行他们的策略。

在可扩展性方面，训练大型MAS（即许多智能体）是很困难的，而且已经表明，即使是最先进的算法也不能为复杂的MARL任务学习到高性能的策略。多智能体变换器软双Q学习通过在训练期间利用启发式方法缓解了这一可扩展性问题，该方法允许在较小的智能体集合上训练策略（例如，在目标追踪场景中，四个智能体追踪四个目标），并且该策略已被证明可以在执行中与更多的智能体一起工作而不需要任何调整（即用1000个智能体测试和评估）。训练和执行过程中使用的启发式方法使算法能够解决智能体数量的巨大分布变化：它基本上将测试时的大型复杂观察空间缩减为接近智能体策略最初训练的内容。从军事角度看，这种提法是战略机动的理想选择，因为现场的智能体可能会在原地丢失或获得，可能要考虑额外的战略信息。一个灵活和可扩展的算法提供了MDO中所需要的能力。

5. 洞察力和结论

由于一些因素，包括科技进步，美国的对手正在变得更加先进。在未来的MAS自主战争中，协作的战略机动可以为国防军带来某些优势。在这篇文章中，我们讨论了一些最突出的RL算法，以发现训练MAS的可行候选策略，这些MAS可以有效地进行战略机动，从而在未来潜在的军事行动中打开机会之窗。本文描述了RL方法的分类法，并对最突出的RL算法进行了概述。研究发现，由于训练和测试因素的不同，大多数RL算法缺乏处理与未来潜在冲突相关的复杂性的能力。

DEVCOM ARL ERPs为开发和实施智能MAS提供了一个规划性的路径。鉴于陆军研究项目为美国国防行动提供了关键研究问题的答案，AIMM和EOT ERPs特别促成了研究，可以为协作的自主MAS提供一个路径，可以克服与1）环境，2）对手战术和能力，3）自身能力（即，获得新的能力，失去以前的能力，或能力被改变），4）团队组成（例如，增加、删除或交换队友），5）战略团队定位、进入、导航（机动）以支持部队并压倒对手，以及6）任务目标。最近，AIMM和EOT ERP在这一领域的工作阐明了衡量MAS协调性的方法，并允许开发一个框架来训练和测试执行各种任务的MAS的协调性，此外还评估了利用一系列集中训练技术的新算法方法。

此外，还需要进行更多的调查，以阐明有利于在ISTAR任务和其他交战场景中利用MAS的军事战略。在浅显的情况下，将完全自主的MAS送入高风险情况（即预期因果率高的情况）是可取的；然而，由于目前的技术限制，仅仅期望MAS能够在没有人类监督或干预的情况下完成任务是不够的。因此，在未来的工作中，将进行研究以确定一套强有力的交战方案。最后，这项工作将导致自主MAS的最终整合，以便在未来的军事行动中尽可能地协调战略机动。

成为VIP会员查看完整内容