【作 者】

Edwin Ho 1, Arvind Rajagopalan 2, Alex Skvortsov 3, Sanjeev Arulampalam 3, Mahendra Piraveenan 1

1 悉尼大学工程学院

2 澳大利亚国防科技 (DST) 集团武器和作战系统部

3 澳大利亚国防科技 (DST) 集团海事部

【摘 要】

本文简要回顾了使用博弈论对与国防应用相关的决策场景进行建模的文献。博弈论已被证明是对智能体、实体和玩家的决策过程进行建模的非常有效的工具。它已被用于模拟不同领域的情景,如经济学、进化生物学和计算机科学。在国防应用中,经常需要对敌对行动者的行动以及试图躲避或超越对方的玩家进行建模和预测。对竞争者的行动如何影响对方的决策进行建模是博弈论的强项。在过去的几十年里,有几项研究应用博弈论的不同分支来模拟一系列与国防有关的情景。本文对这些尝试进行了有条理的回顾,并从所模拟的战争类型、所使用的博弈类型以及所涉及的参与者方面对现有文献进行了分类。经过仔细挑选,共讨论和分类了29篇直接相关的论文。就所模拟的战争而言,我们认识到大多数在国防环境中应用博弈论的论文都涉及指挥和控制战争,并可进一步分为涉及(i)资源分配战争(ii)信息战争(iii)武器控制战争和(iv)对手监控战争的论文。我们还注意到,大多数论文都涉及传感、跟踪和大型传感器网络,所研究的问题与民用领域的传感器网络分析有类似之处。就所使用的游戏而言,我们将审查的论文分为使用非合作或合作游戏、同时或顺序游戏、离散或连续游戏以及非零和或零和游戏的论文。同样地,论文也被分为双人、三人或多人游戏的论文。我们还探讨了玩家的性质和每种情况下的报酬函数的构建。最后,我们还找出了文献中的空白点,在这些空白点中,博弈论可以被有效地应用于迄今为止尚未用博弈论探索过的场景。所做的分析对博弈论在国防应用中的应用提供了一个简明的总结,并强调了博弈论在所考虑的情况下的好处和局限性。

关键词: 决策;博弈论;国防科学;地面战;海战;空战;跟踪;传感

1. 引 言

博弈论已经成为传统的理论框架之一,用于模拟我们生活中许多方面的重要决策过程。在经济学、社会科学、金融学、项目管理、计算机科学、公民学和流行病学中都可以找到著名的例子。自从约翰-冯-诺伊曼、约翰-纳什等人的开创性工作以来,人们已经充分认识到,在两方或多方(玩家)之间的复杂互动(游戏)背景下,存在一种最佳策略,可以通向可预测的结果(报酬)。在实际情况下,这种结果往往可以是定量的,可以进行算术运算(成本、感染人数、接种人数等),但往往也可以是定性的(如风险、准备程度、健康状态等)。

博弈论和相关数学方法的应用最近在国防领域引起了越来越多的关注。这是由两个驱动因素造成的。首先,博弈论提供了一个自然的框架,通过用量化的术语如报酬、成本、收益或损失、风险等将高层次的政策决定迅速转化为最佳战略。这为国防决策者创造了一个统一的平台,以支持达成一个特定的决定。第二,它提供了一个严格的数学框架,用于按照预定的标准评估和优化许多方案。这种迅速的评估往往成为国防作战背景下的关键成功因素,导致在时间压力下的决策优势。这也成为国防行动中各种人工智能(AI)能力发展和部署的关键步骤。

博弈论在国防领域的应用有着持续和多样化的历史,从实时军事系统的设计(例如,应用于导弹拦截)到支持大型国防投资和收购的战略决策。关于具体的理论方法和工具及其国防应用有大量的文献。我们相信,对这些文献的回顾对于处理作战分析和数据驱动的决策支持的社区是有意义的。这也是本研究的主要动机。

博弈论通过对形势的整体和定量分析,加强了军事战略和决策过程。对军队来说,可用于博弈论分析的潜在情景包括快速增长的自主智能系统的应用,博弈论提供了一个全面的数学框架,大大增强了使用这些系统的人的决策能力。由于其潜力,博弈论的研究正在蓬勃发展,在这个军事研究领域的文献中开始出现一些以上的论文。本评论旨在帮助研究人员利用博弈论的知识体系,为国防从业人员开发更智能、更安全的决策系统。鉴于此类研究仍处于萌芽阶段,我们通过在现有军事知识与博弈论提供的新生可能性之间建立联系,使其成为军事控制系统中更广泛理解和考虑的框架。

为了了解博弈论在国防领域应用的最新情况,并分析在这种情况下使用的游戏类型,需要进行回顾。据我们所知,目前还缺乏这样的回顾,它涵盖了博弈论在各种军事领域的不同应用。本文的目标是提出这样的评论,使人们更好地了解博弈论可以成功应用的众多国防问题。此外,对不同背景下使用的博弈类型的多维分类,将为研究人员提供在相关问题中应用博弈论的新方法的见解。最后,我们提出了文献中的空缺,希望能引起更多的研究和开发新的博弈论方法来解决防御问题。

尽管不是太广泛,但围绕军队中的博弈论的文献体系已经涵盖了不同形式的交战和战斗的显著部分。这些论文涵盖了过去、现在和未来的情况:从潜在敌对情况下的预测策略到对几千年前军事对峙的事后分析评估。博弈论已经证明有能力在任何此类军事场景中发挥作用。然而,快速的技术进步带来了持续的军事交战新领域,其中每一个领域都拥有自己的复杂系统。所涉及的首要领域是追踪系统(跨越所有领域)、空中战斗、地面战斗、国家安全问题、网络战争和空间系统。值得注意的是,博弈论在海军战争中的应用很少,对未来类似领域研究的探索将在后面的评论中讨论。在这些领域中,有无数的新的和创新的系统的可能性:不同的代理人,不同的武器,不同的控制结构--这些都可以用博弈论分析来丰富。虽然海伍德(Haywood)和桑霍姆(Thunholm)关于军事决策中使用的博弈论的论文涵盖了几种不同的博弈类型,但似乎还没有一篇论文涉及到在高性能计算和复杂算法基础上建立的军事系统的新背景下,博弈论在各自领域的军事应用。我们的目标是以这样一种方式来介绍文献,即解决博弈论在军事控制系统中每个关键领域的所有功能。

这篇评论经过仔细挑选,详细参考了总共29篇论文。它强调了每篇分析论文的范围和效用,从基本的博弈论概念方面介绍了它:玩家、游戏类型、策略和其报酬函数的关键参数。它既是一个带注释的书目,也是一个理解和规划该领域进一步研究的框架。它还将列出玩家在每个军事决策场景中考虑的基本原则,以及这些原则如何影响军事人员和系统在与敌对玩家竞争或与友好玩家合作时做出的决定。这将使大多数军事场景有可能被视为游戏,至少可以为熟悉的军事情况提供一个有趣的新视角。这里审查的29篇论文是由来自国防、学术界和工业界的具有相关背景的专家团队从Scopus和Google Scholar中挑选出来的,他们可以提供不同的观点,根据不同的经验确定最相关的论文。只有用英语写的论文才被考虑。虽然我们承认没有进行详尽的搜索,但据我们所知,这些论文涵盖了我们在此讨论的研究领域的一个重要和有代表性的部分,并充分展示了这一领域的趋势、重叠和文献的差距。因此,我们有信心,所提出的分析将在所分析的论文之间进行严格的比较,并强调每篇论文的优势和劣势,同时也强调利用博弈论来模拟军事背景下的决策的总体利弊。

本文的其余部分结构如下。第2节将讨论我们所回顾的论文所阐述的基本防御原则,并介绍博弈论的基本概念。第3节对文献进行了调查和分析,并总结了每篇论文中的发现和关联。第4节根据上一节的观察,阐述了我们对文献的多维度分类,同时也介绍了与所回顾的论文相关的引文和其他指标。第5节指出了文献中的空白,并在此基础上强调了未来在这一领域的研究机会,特别是在博弈论迄今尚未经常应用的国防研究领域,可以从博弈论的应用中获益。第6节深入讨论了研究结果的实用性和所提交的评论的总体情况。最后,第7节总结了我们的发现和分类,并提供了广泛的结论。

2. 背 景

几个世纪以来,关于战争的意识形态、信仰和知识一直在影响着人类的知识和哲学。孙子、荷马和马基雅弗利的伟大作品不仅为军事决策的本质奠定了知识基础,而且还为社会学和社会心理学提供了洞察力。军队构成了许多文明的核心权力集团,对现有国家的影响力增长和新国家的诞生都很重要。军队实时处理冲突,计划未来,并回顾过去的交战情况--这些活动中的每一项都会对社会产生影响。因此,本评论有必要涉及多个物理领域的军事冲突的许多方面,下面将总结每个领域需要做出的主要决定。然而,在所有这些领域中,目标的价值、资源的价值和目标的优先级通常是形成报酬函数和战略的关键参数,而这些参数反过来又定义了我们在建模中使用的游戏。

在本节中,我们将讨论国防科学和技术以及博弈论中的概念,这些概念对于理解和分析所提出的细分领域的文献是必要的。首先,让我们讨论一下本评论中所考虑的国防和国家安全的广泛领域。如表1所示,它们可以被总结出来。

表 1. 本次综述中使用的分类系统

如表1所示,在这次审查中,重点主要是 "指挥与控制 "战争,在这种战争中,决策是至关重要的。然而,指挥与控制战争适用于传统的战争领域,如陆战、海战和空战,以及现代战争领域,如太空和网络战争。在一个正交的层面上,指挥与控制战还可以细分为资源分配战(RAW)、信息战(IW)、武器控制战(WCW),以及对手监控战(AMW)。由于这些概念在我们的文献分类中被广泛使用,让我们先简单介绍一下。

2.1 战争类型

资源分配战(RAW):为实现军事目标而分配军事资源。

信息战(IW):操纵信息以实现军事目标。

武器控制战(WCW)。控制武器以实现军事目标。

对方监控战(AMW)。追踪敌人的行为以实现军事目标。

2.2 战争领域

2.2.1 陆地战争

技术是战争的决定性力量,而技术对于陆战来说并不像对于其他领域那样势在必行。影响陆战的技术是相对静态的,并尽可能避免人力资源的暴露。如今,身体层面的人际战斗已经不那么普遍了,为更多地关注定位战略让路。将博弈论应用于地面战争的文献包括一个强大的武器-目标分配论文库(涉及现代背景下的武器控制战和资源分配战),以及涉及古代地面交战和游击战的论文。在人命脆弱的地方,保护他们是这些游戏中最重要的因素,其次是保护地面资产。

2.2.2 海上(海军)战争

鉴于海军在全球范围内投射力量的重要性,关于海战的公开文献令人惊讶地少之又少--无论是否应用博弈论。在处理目标追踪的论文中经常会提到海战,但关于海军军事战略的讨论却仅限于过时的文献或对赤裸裸的基本要素的讨论。我们将回顾这方面的现有论文,并强调这是一个在文献中存在相当大差距的领域。

2.2.3 空中战争

在莱特兄弟发明飞机后不久,空战就成为战斗和军事行动的一个关键因素。在一个很少受到障碍物或尺寸阻碍的战斗媒介中,空战的性质是快节奏的、直观的和令人难以置信的险恶,有不可预测的交战'规则'。在今天,与一个世纪前相比,需要考虑的因素要复杂得多,而且军事力量在进行空战时并不缺乏资源--包括人和机器。文献显示,由于这种丰富的武器库,目标和用于交战的资源的内在和潜在价值在空战场景中特别重要。在评估作战策略时,需要对冲突双方的这些价值做出决定。因此,有几篇论文讨论了博弈论在空战中的应用。

2.2.4 网络战

网络安全是保护IT系统和网络不被损坏/破坏/遭受信息盗窃。网络战涉及到信息和通信系统被故意攻击以获得军事优势的概念。尽管几十年来,网络安全一直是计算机科学的一个重要领域,但有关网络战的文献却比较少,而且在任何情况下,都与计算机科学中的博弈论在网络安全相关领域的应用有很大的重叠。这篇评论介绍并分析了一些专门涉及网络战争的论文。

2.2.5 太空战

虽然太空战的概念已经存在了近一个世纪,但既没有实际的执行,也没有建立起一套太空战的理论策略[31]。然而,这并没有阻止军队追逐星星(字面和形象),并不可避免地导致博弈论的概念被用于太空战的战略思维。这目前主要限于卫星网络,其中游戏的关键参数是优化整个网络的电力使用和信号强度。这个领域仍然相当年轻,在太空的进一步军事发展似乎是不可避免的,与此相应的处理博弈论在太空战中的应用的文献也将增长。

2.2.6 混合/其他战争

有几篇论文论述了博弈论在国防领域的具体应用,但却不能被归类为分析某类战争的论文。在其中一些论文中,重点更多的是放在所使用的技术上:例如,目标追踪。在另一些论文中,需要进行防御的敌对行为者的性质发生了变化:例如,针对国内恐怖主义威胁而非敌对军事力量的国家安全行动。有几篇论文讨论了博弈论在这种情况下的应用。

目标追踪系统。军事上的目标追踪是对移动目标的观察,以及对其位置和动作的监视。这个领域的成功依赖于观察指标和数据的准确性,以及所有收集到的信息的有效分配和处理。随着智能目标的出现,军队也必须纳入预测方法,以保持理想的跟踪性能。在这方面审查的文献涵盖了从跟踪攻击导弹到战区弹道导弹,以及跟踪未知智能代理到敌机的主题。这一领域中形成博弈的关键考虑因素涉及目标是否 "智能"/能否采取规避行动,目标是否会有一个最佳轨迹,以及目标是否会有防御者。博弈论的目标跟踪应用大多发生在空战和海战中,包括水下监视。

国家安全的应用。博弈论经常在国家安全和反恐相关领域找到应用。这包括预测和准备恐怖袭击,以及保护关键人员和地标/其他潜在恐怖活动目标的资源分配方案。虽然潜在目标的价值和攻击的可能性显然是制约这一领域博弈回报函数的关键参数,但随后的社会、经济和政治影响在这一领域的博弈建模中同样重要。很少有军事冲突能像后方的冲突那样被曝光,恐怖袭击的后果及其对公众情绪和对安全机构的信心的影响,在建立这一领域的回报函数模型时经常被考虑在内。

2.3 博弈论

博弈论是对战略决策的研究,最早是作为微观经济学的一个分支发展起来的。然而,后来它又被用于不同的研究领域,如进化生物学、社会学、心理学、政治学、项目管理、财务管理和计算机科学。博弈论之所以获得如此广泛的适用性,是因为不同学科中普遍存在战略决策情景。博弈论提供了对特殊行为互动的洞察力,如动物群体内的合作互动、婚姻中的讨价还价和交换或苏格兰鲑鱼养殖者的激励。一个游戏通常包括两个或更多的参与者,一组可供这些参与者使用的策略,以及每个参与者相应的一组报酬值(也称为效用值)(在双人游戏的情况下通常以报酬矩阵的形式呈现)。

2.3.1 纯粹策略与混合策略

游戏中的纯策略提供了玩家如何进行游戏的完整定义。

一个棋手的策略集是该棋手可用的纯策略集。混合策略是纯策略的组合,其中有一个特定的概率p(0≤p≤1)与这些纯策略中的每一个相关联。由于概率是连续的,所以一个棋手有无限多的混合策略可供选择。完全混合策略是一种混合策略,在这种策略中,玩家对每个纯策略都赋予了严格的正概率。因此,任何纯策略实际上都是混合策略的退化情况,在这种情况下,选择该特定策略的概率为1,而选择其他每个策略的概率为0。

2.3.2 纳什均衡

纳什均衡的概念是博弈论的基础。它是战略博弈中的一种状态(一组策略),就报酬而言,没有任何一方有动机单方面偏离这种状态。纯策略和混合策略纳什均衡都可以被定义。一个战略博弈往往可以有一个以上的纳什均衡。事实证明,每一个玩家数量有限的博弈中,每个玩家可以从有限多的纯策略中进行选择,至少有一个混合策略的纳什均衡。

纳什均衡的正式定义如下。假设 (S, f) 是一个有 n 个玩家的博弈,其中 Si 是给定玩家 i 的策略集。因此,由所有参与者的策略集组成的策略配置文件 S 将是,S=S1 × S2 × S3… × Sn。令 f(x)=(f1(x),…,fn(x)) 为策略集 x∈S 的支付函数。假设 xi 是参与者 i 的策略,x−i 是除参与者 i 之外的所有参与者的策略集。因此,当每个玩家 i∈1,…,n 选择策略 xi 时,策略集 x=(x1,…,xn),给特定玩家的收益 fi(x),这取决于该玩家选择的策略 (xi) 和其他玩家选择的策略 (xi-i)。如果任何单个参与者的策略单方面偏差都不会为该特定参与者带来更高的效用,则策略集 x∗∈S 处于纳什均衡。正式地说,x∗ 处于纳什均衡当且仅当:

2.3.3 非合作性博弈和合作性博弈

通常情况下,博弈被认为是为了玩家的自身利益而进行的,即使玩家进行合作,那也是因为在他们看来,合作是在这种情况下使玩家的个人收益最大化的最佳策略。在这样的博弈中,合作行为即使出现,也是由自私的目标驱动的,而且是短暂的。这些博弈可以被称为 "非合作性博弈"。这些博弈有时被称为 "竞争性博弈",这是不准确的。非合作博弈论是分析这类博弈的博弈论的一个分支。另一方面,在合作博弈中,有时也被称为联盟式博弈,玩家形成联盟或团体,有时是由于外部对合作行为的强制执行,如果出现竞争,则在这些联盟之间发生。合作博弈使用合作博弈理论进行分析,该理论预测了哪些联盟会形成,以及这些联盟的回报率。合作博弈理论的重点是联盟之间的剩余或利润分享,即联盟由于形成了联盟而被保证了一定的报酬。通常,在一个系统中进行的合作博弈的结果相当于一个受限的优化过程的结果。

2.3.4 零和博弈

零和博弈是一类竞争性博弈,所有参与者的报酬总额为零。在双人游戏中,这意味着一个玩家的报酬损失等于另一个玩家的报酬收益。因此,一个双人零和游戏可以用一个只显示一个玩家报酬的报酬矩阵来表示。零和博弈可以用最小最大定理来解决,该定理指出,在零和博弈中,有一组策略可以使每个玩家的最大损失最小(或最小报酬最大化)。这种解决方案有时被称为 "纯鞍点"。可以说,股票市场是一个零和游戏。相比之下,大多数有效的经济交易都是非零和的,因为每一方都认为,它得到的东西(对它自己来说)比它分到的东西更有价值。

2.3.5 完美与不完美的信息博弈

在完美信息博弈中,每个玩家都知道所有其他玩家先前行动的全部历史,以及游戏的初始状态。在不完全信息博弈中,一些或所有的棋手无法获得关于其他棋手先前行动的全部信息。

2.3.6 同期博弈和顺序博弈

同期博弈是一种正常形式的博弈或广泛形式的博弈,在每一次迭代中,所有玩家都同时做出决定。因此,每个玩家被迫在不知道其他玩家(在该迭代中)所做决定的情况下做出决定。相反,顺序博弈是一种广泛形式的博弈,在这种博弈中,玩家按照某种预定的顺序做出决定(或选择策略)。例如,如果一方总是有特权提出第一个提议,而其他各方在此之后提出他们的提议或还价,那么谈判过程就可以被模拟为一个顺序博弈。在顺序博弈中,至少有一些玩家在做出自己的决定之前可以观察到其他玩家的至少一些行动(否则,博弈就变成了同时博弈,即使玩家的行动在时间上并不同时发生)。然而,并不是一定要让某个棋手可以观察到之前每个棋手的每一步棋。如果一个棋手可以观察到每个前一个棋手的每一步棋,这样的顺序博弈就被称为有 "完全信息"。否则,这个游戏就被称为 "不完美信息"。

2.3.7 差分博弈

差分游戏通常是广泛形式的游戏,但不是有离散的决策点,而是在一个连续的时间框架内进行建模。在这种博弈中,每个状态变量都根据微分方程随时间连续演化。这种博弈是模拟快速演变的防御场景的理想选择,在这种情况下,每个参与者都会对某些参数进行自私的优化。例如,在导弹跟踪问题中,追击者和目标都试图控制他们之间的距离,而追击者不断试图最小化这个距离,目标则不断试图增加这个距离。在这种情况下,迭代的决策回合对于模拟每个参与者的连续运动和计算来说过于离散。差分游戏是模拟这种情景的理想选择。

2.3.8 共同利益博弈

共同利益博弈是另一类非合作博弈,其中存在一个所有玩家都严格偏爱的行动方案,而不是其他所有方案。换句话说,在共同利益博弈中,玩家的利益是完全一致的。可以说,共同利益博弈是零和博弈的对立面,在零和博弈中,玩家的利益是完全对立的,所以一个玩家的财富增加必然导致其他人的财富集体减少。共同利益博弈最早是在冷战政治的背景下被研究的,以了解和规定处理国际关系的策略。因此,把非合作博弈分为共同利益博弈和非共同利益博弈是有意义的,就像把它们分为零和博弈和非零和博弈一样,因为这两个概念(零和博弈和共同利益博弈)代表了非合作博弈的极端情况。

2.3.9 信号博弈

信号博弈是一种不完全信息博弈,其中一个玩家拥有完全信息,而另一个则没有。拥有完全信息的一方(发送方S)通过信号向另一方(接收方R)传递信息,而另一方在推断出隐藏在信息中的信息后将对这些信号采取行动。发送者S有几种潜在的类型,其中确切的类型t在游戏中对接收者R来说是未知的,t决定了S的报酬,R只有一种类型,这种报酬对双方都是已知的。

该游戏分为发送阶段和行动阶段。S将发送M={m1,m2,m3,...,mj}中的一个信息。R将收到该信息,并从A={a1,a2,a3,...,ak}集合中选择一个行动作为回应。每个玩家收到的报酬由发送者的类型和信息的组合,以及接收者回应的行动所决定。信号游戏的一个例子是啤酒-蛋饼游戏[52],在这个游戏中,玩家B,即接收方,选择是否与玩家A决斗。玩家A要么很凶,要么很懦弱,而玩家B只想与后者决斗。玩家A选择喝啤酒或吃乳蛋饼作为早餐。虽然他们更喜欢吃乳蛋饼,但乳蛋饼发出的信息是吃乳蛋饼的人很懦弱的刻板印象。玩家B必须分析每个决定,决斗或不决斗,如何根据玩家A选择的早餐给他们带来更好的回报。

2.3.10 行为博弈论

行为博弈论将经典博弈论与实验经济学和实验心理学结合起来,并在此过程中放松了经典博弈论中许多不现实的简化假设。它偏离了诸如完全理性、独立公理和不考虑利他主义或公平作为人类决策的动机等简化假设。我们将在这篇评论中表明,与行为博弈论有关的方法在模拟军事场景方面至关重要,例如在信号博弈方面。

2.3.11 进化博弈论

进化博弈论是博弈论在进化生物学领域的应用成果。进化博弈论中提出的一些关键问题包括:哪些种群/策略是稳定的?哪些策略可以在其他策略盛行的种群中 "入侵"(变得流行)?在迭代博弈的背景下,玩家如何应对其他玩家获得或被认为获得更好的回报?进化游戏通常被建模为迭代游戏,即一群玩家在一个混合良好或空间分布的环境中迭代地玩同一个游戏。

如果一个策略在盛行时有可能阻止任何突变的策略渗入其环境,那么它就可以被确定为进化稳定策略(ESS)。或者说,ESS是指如果一个种群在给定的环境中采用了这种策略,就不能被任何替代策略所入侵。因此,玩家从ESS转向另一种策略是没有好处的。因此,从本质上讲,ESS确保了一个扩展的纳什均衡。对于一个策略S1来说,要想成为对抗另一个 "入侵 "策略S2的ESS,需要满足下面提到的两个条件之一,即预期报酬E。

E(S1,S1)>E(S2,S1)。通过单方面改变策略到S2,该玩家将在与另一个坚持ESS S1的玩家的竞争中失利。

E(S1,S1)=E(S2,S1) & E(S1,S2)>E(S2,S2):一个棋手通过转换到S2,在与另一个坚持ESS S1的棋手对弈时,既没有收获也没有损失,但与已经 "转换 "到S2的棋手对弈时,棋手最好还是选择ESS S1。

如果满足这两个条件中的任何一个,新策略S2就没有能力入侵现有策略S1,因此,S1对S2是一种ESS。进化游戏通常被建模为迭代游戏,即群体中的玩家迭代地玩同一个游戏。

2.3.12 博弈论的其他最新进展

需要指出的是,博弈论的其他几个分支在上面的小节中没有提到,也有几个最新的进展没有提到。博弈论被用于越来越多的不同场景和应用中。例如,博弈论被用来确定电信业中竞争者的市场份额,或沼气厂的实施和建设。在一些应用中,矩阵博弈的报酬被构建为包含模糊元素,据说这使得建模的场景更加真实。同样,量子博弈论是一个新兴领域,它引入了叠加的初始状态、初始状态的量子纠缠和策略的叠加。这里不能总结所有这些进展。因此,本节只对那些在防御文献中,特别是在我们评论的论文中经常使用的博弈论概念做了基本介绍。因此,对于不熟悉博弈论的读者来说,以上各小节提出了一个基本的介绍。请看对所提出的概念的更详细的处理。

在此背景下,我们现在回顾一下现有的涉及博弈论在国防科技领域应用的文献。

3. 博弈论在国防科技中的应用

如前所述,在模拟防御场景的游戏中,影响报酬矩阵的主要参数是目标的价值、资源的价值和目标的优先级。除此以外,国防应用中使用的游戏可以有很大的不同,我们将在下面看到。出于这个原因,本节是根据每篇论文所涉及的领域(战争类型)来安排的。如果一篇论文涵盖了一个以上的领域,它将被列入最相关的小节/领域。然而,我们详细分析了每篇论文所使用的游戏类型、报酬函数的结构方式、可用策略和均衡等。

3.1 研究陆战的论文

在与陆战有关的博弈论应用中,大多数研究都集中在防御性战争上,即军队决定如何最好地分配他们的地面防御来应对多种威胁。一些研究还关注历史上的陆上冲突,并提供事后的博弈论分析,揭示了在历史冲突中一些凭直觉做出的决定是如何具有理性和数学上的理由的。陆地战争可能导致非常严重的伤亡,因此了解如何最好地减少人员损失是陆地战争的一个关键组成部分(尽管不是唯一的目标)。很多时候,确定军事资源的优先次序也是成功的根本,并经常在战略决策中占据突出地位。此外,在涉及地面战争的情况下,经常需要评估对对手、其可能的战术或地形的了解:可能需要打击在某些地方插入的空降部队,或者需要穿越不确定的领土。在每一种情况下,了解一支部队在什么地方拥有不完善的信息将有助于该部队做出合理的决定。

有几篇论文使用博弈论来模拟当前和历史背景下的陆地战争。Bier等人设计了一个博弈,将防御资源最好地分配给一组需要保护的地点/资源。然后,攻击者必须决定他们如何选择分割他们的力量来攻击不同的目标。这个游戏被模拟成一个正常形式的双人游戏。这个游戏的回报是绝对的,对一个地点i的攻击要么成功,要么失败,攻击方获得ai,防御方失去di。由于攻击的命令是在攻击前确认的,所以攻击者必须使用一套纯策略。这个游戏既可以同时进行,也可以依次进行。也就是说,游戏的进行取决于攻击者在做出决定之前是否知道防御者如何分配他们的资源。这就导致了理想的策略是让一些目标不受防御,并通过让一些地区脆弱来加强关键地区的防御。

我们评论的下一篇论文是Gries等人的文章,它全面调查了博弈论原则在游击战/颠覆战中的效用。他们建立的模型的重要因素是:破坏稳定的叛乱分子经常随机攻击,造成持续的威胁,必须有一个持续的缓解和检测策略;战争的持续时间是需要考虑的,它将改变分配给目标和资产的价值;时间偏好在设置优先级方面起着关键作用,因为对价值的判断决定了战略决策,反过来决定成功或失败。他们提出的博弈模型涉及一个连续的非合作博弈和一个同时的非合作博弈,在每一个博弈中,两个参与者是游击队和政府。对于这些冲突,经济和社会影响要比军事损失和收益重要得多,因此在计算结果的价值方面发挥了更大的作用。

游戏特别模拟了每一方寻求与对方和平或冲突的时刻。在这些时刻,政府军必须考虑每个选项的财务成本,而叛军则要考虑交战的优先顺序,以及他们将为每个交战提供哪一部分战斗力。图1展示了在破坏稳定的战争中从这些时刻出现的决策树的例子,其中G代表政府的决策,R代表叛军的决策。

图 1. 破坏稳定战博弈,其中突出显示了政府和叛军的决策点

Krisnamurthy等人研究了对无人值守地面传感器网络(UGSN)动态行为的博弈论控制,以获取有关入侵者的信息。该网络中的每个传感器都能够以特定的精度接收附近目标的范围和方位的测量值,然后将其传输到本地中心进行数据融合。在这个框架中,虽然更多的传感器测量值和更大的测量值传输量可能会导致更好的目标意识,但这也导致了对有限电池电量的更大消耗的不良影响。因此,应用博弈论的目标是使用一种双时间尺度的分层方法,对目标意识、数据传输和能源消耗进行最佳权衡。

作者证明,传感器的激活和传输调度问题可以分解为两个耦合的分散算法。特别是,传感器被视为非合作游戏中的参与者,并提出了一个自适应学习策略,以根据传感器与感兴趣的目标的接近程度来激活它们。这被证明是这个非合作博弈的相关均衡解。接下来,传输调度问题,即每个传感器必须在每个时间点决定是传输数据和浪费电池电量,还是等待和增加延迟,被表述为具有惩罚性终端成本的马尔科夫决策过程。这一表述的主要结果是表明,最佳传输策略具有阈值结构,然后用超模数的概念来证明。

有几项研究用博弈论的棱镜分析了主要发生在陆地上的历史冲突。例如,Cotton和Liu描述了两个中国古代的军事传说,并将其建模为信号游戏。在这两个游戏中,传说中的军事领导人面对的是数量和力量都远远超过自己的军队的强大对手,但他们并没有撤退,而是准备交战,表现得就像在设下埋伏。他们的对手在信息不完善的情况下,只能从对手的行动中推断出一些信息;由于被这些将军的自信和名声所吓倒,对方的军队虽然在实际实力上占优,但却选择不交战。通过勇敢而巧妙的虚张声势,两位将军都通过站在自己的立场上实现了对自己有利的平衡方案。他们通过在没有直接沟通的情况下制造欺骗来做到这一点,这遵循了前面提到的Beer-Quiche信号游戏的模板。

科顿和刘描述的第一个游戏是 "100个骑士 "游戏。他们描述了这样一段历史:一百名汉族骑兵独自旅行,遇到了一支人数达数千的匈奴部队。他们可用的策略是撤退或交战。如果他们撤退,而敌人参与进来,他们很可能会被击垮和击败;如果他们参与进来,而敌人也参与进来,他们将在战斗中被淘汰。对他们来说,最好的结果是以某种方式迫使敌人退却。敌人不确定这些骑兵是否与更大的军队同行。他们看到骑兵的行动,决定不冒这个险,而是撤退。这种情况被转化为一个双人游戏,有两种策略。如下图2所示:

图 2. 100 Horsemen 信号博弈

在图 2中:

LG代表汉军李广将军的决策点。

GenX代表了敌对匈奴势力的决策点。

收益被列为(LG,GenX)

λ∈(0,1) 代表将军的能力,

α 和 β 代表在撤退中丧生的汉族骑兵比例

w 是一个正参数

第二个游戏与第一个游戏非常相似。在这个游戏中,一个小城市由强大的诸葛亮将军守卫。他得知一支巨大的敌对军队正在接近这座城市。他面临着两个选择。他可以逃跑,之后他将脱离城市,并可能被逼近的军队追赶,或者他可以留下并保卫城市。如果他选择后者,而军队参与进来,他很可能会失去他的生命、他的军队和这座城市。面对这种两难的局面,他命令他的人躲在视线之外,使城市从外面看起来是空的。他爬上城中最重要的塔顶,演奏音乐。对方的将军知道梁将军的经验和能力,怀疑将军在空城的塔楼上采取这个不起眼的位置来伏击他的军队,于是他们远离城市以避免被伏击。梁将军在这里有效地发出了两个信号。第一个是他的声誉,这个信号包含了他的战略和军事力量。第二是他选择留下来保卫城市。有了这两点信息,再加上没有其他关于梁将军军队的下落或规模的信息,对方军队选择了零损失的安全选择,离开了。这段历史被模拟成另一个双人信号游戏,如下图3所示:

图 3. 空城信号博

在图 3 中:

ZL代表诸葛亮将军的决策点

收益被列为(ZL,反对军)

λ∈(0,1) 代表将军的能力,

c代表城市的价值

w 代表 ZL 的军队与对方军队匹配时的收益

y表示ZL的军队比对方军队弱时的损失,并且y>c,因为它包括失去城市

这两段历史都代表了面对近乎确定的失败时做出的杰出军事决策,实际上是将军们对信号的细微差别有深刻理解的例子,并在战略互动中做出理性决策,迫使他们取得有利于自己的结果。

3.2 研究海战的论文

令人惊讶的是,尽管海战在人类历史上比空战要早很多,但直接和主要利用博弈论来研究海战的论文却相对罕见。莱文利用博弈论的概念研究了前几个世纪的海战的各个方面。在18和19世纪,当时的强国建造的战舰都是沿着船舷放置大炮的。这意味着船只通常只能对其两侧进行攻击。当以舰队形式航行时,标准的做法是形成 "战线",即一列联军军舰沿某一方向航行,使其两侧面对敌人,也摆成一排。然后,两支平行的对立舰队可以用大量的大炮攻击对方。战线 "战略被认为是一种纳什式的平衡,因为两支舰队都不会从进行耙击(当时的一种战术,即攻击舰会试图驶过对手的船尾,将大炮集中在那里开火,而敌人由于船尾的大炮位置较少,只能做出最小的反应。攻击舰会同时破坏对手的船尾和一些宽舷)。根据列文的说法,在一支舰队中,耙网并不是首选,因为这意味着必须先在敌人前面航行,然后转向它--当船只的速度大致相同,而且操纵困难时,这是个具有挑战性的任务。由于两支舰队都不会从转向敌人的过程中获益,也不会领先,莱文得出结论,这种策略--形成一条战线并与对方舰队平行航行--是每支舰队的最佳反应,因此代表了纳什均衡。

莱文接着提到了一些战役,在这些战役中,英国舰队偏离了上述策略,向法国和法国-西班牙舰队正交航行。在莱文提到的第一场战役中,这可能是没有计划的。在第二场战役--1805年的特拉法尔加战役中,它是经过精心设计的:英国舰队分成两个纵队,每个纵队都以正交方向驶向法西战线,在撞开战线并开始全面混战之前,进行了大约45分钟的猛烈攻击。英国人继续孤立了法西舰队的中间部分,取得了决定性的胜利。莱文认为这两场战役都是他论点的反例。然而,在特拉法尔加战役中,英国的战略有可能是对法国和西班牙可能形成的正统战线战略的最佳回应。英国海军上将纳尔逊勋爵希望阻止法西舰队逃跑--如果两支舰队形成平行战线,他们就可以逃跑--从而减少他将自己的舰队组成战线所得到的回报。此外,他可能估计到法国和西班牙船只的炮击能力较差,会降低炮击的效果,从而减少他直接向法国-西班牙舰队发起冲锋所获得的负面奖励。在他看来,这可能使得非正统的选择比正统的战线更能应对法西可能的战略。虽然莱文没有明确地将当时海战中的这些策略归结为博弈论,但所采用的策略还是可以通过博弈论分析来证明:这是一个没有正式研究博弈论的 "直觉 "应用的例子。

Maskery等人在2007年(a)研究了使用网络支持的操作(NEOPS)框架部署反舰导弹的问题,在这个框架中,多艘舰艇进行通信和协调以防御导弹威胁。在这里,导弹威胁被模拟成一个离散的马尔可夫过程,它们在一个固定的物理空间内的随机位置出现,并遵从一些已知的目标动力学和制导规律向舰艇移动。装备有反制措施(CM)如诱饵和电磁干扰信号的舰艇被模拟为瞬时随机博弈的参与者,其中单个参与者的行动包括使用CM来最大化自己的安全,同时与其他基本上以实现相同目标为目的的参与者合作。这个博弈论问题的最优策略是一个相关的均衡策略,并被证明可以通过一个具有双线性约束的优化问题来实现。这与tepmaskery2007decentralized提出的一个相关问题但没有玩家协调的纳什均衡解决方案形成对比。本文的一个值得注意的贡献是,它还量化了实施NEOPS均衡策略所需的沟通量。本文强调了博弈论方法在分析现代战争中至关重要的网络系统的最优策略方面的效用。

在[71]中,Maskery等人2007年(b)考虑了以网络为中心的特遣部队对反舰导弹的保护问题。这个模型中的决策者是配备了硬杀伤/软杀伤武器(反制措施)的舰艇,这些舰艇也被认为是在博弈论环境下制定这个问题的参与者。这些平台必须就反措施的最佳部署做出独立的关键决定,同时他们也要为保护任务组成员的共同目标而努力。从本质上讲,这是一个海军环境中的分散导弹偏移问题,它被表述为一个瞬时随机博弈,舰艇可以计算出一个处于纳什均衡的联合反措施政策。在这里,舰艇之间的博弈而不是与导弹的博弈。这种方法自然适合于分散的解决方案,在完全通信不可行的情况下可以实施。此外,这种提法导致问题被解释为随机的最短过去博弈,已知存在纳什均衡的解决方案。Bachmann等人使用非合作的双人零和博弈分析了雷达和干扰器之间的互动。在他们的方法中,雷达和干扰器被认为是目标相反的 "玩家":雷达试图最大限度地提高探测目标的概率,而干扰器则试图通过干扰雷达来最小化其探测。

Bachmann等人假设在存在瑞利分布杂波的情况下有一个Swerling II型目标,对于这个目标,在不同的干扰情况下,单元平均(CA)和顺序统计(OS)CFAR处理器的某些效用函数被描述。这种博弈论的表述是通过优化这些效用函数来解决的,这些效用函数受到控制变量(策略)的约束,对于干扰者来说是干扰者的功率和干扰的空间范围,而对于雷达来说,可用的策略包括阈值参数和参考窗口大小。由此产生的矩阵形式的博弈被用于解决雷达和干扰器的最佳策略,从中确定雷达和干扰器有效实现其各自目标的条件。

3.3 研究空战的文件

空战通常是一种正常形式的游戏,在交战前,根据对武器库中不同元素的强度的假设和知识,对所利用的资源做出决定。例如,压制敌方防空车(SEADs)对地对空防御和地对空导弹(SAMs)是有效的,但对战斗机则没有用。因此,当军事人员决定在交战中使用哪些资源时,他们需要权衡每种资源的价值,以及目标对冲突双方的重要性。如果攻击部队对一个目标的重视程度远远超过其实际价值,那么他们增加的资源支出可能会对其整个军事行动造成损害。在人类通常操作空中武器的情况下,他们各自的能力和技能,以及他们执行任务的可能性,都需要考虑。

关于用博弈论建模的空战的文献有限。汉密尔顿为博弈论在多种空战情况下的应用提供了一个全面的指导。汉密尔顿建议使用博弈论来制定战略,不仅要基于自己的军事选择,还要考虑对敌人行动的预期。博弈论说明了与敌人的不同互动,而不是简单地考虑哪一方拥有优越的最大努力力量。如今,许多军队可以适应即时变化的情况,并根据这些新情况调整自己的行动。因此,汉密尔顿建议首先确定每一方可用的所有战术选择。如前所述,将博弈论用于军事的最基本要素之一是了解每项资产到底有多少价值--详细说明双方的库存和战略可能性将最好地澄清所有战略选择。对于每个选项,汉密尔顿建议分配一个数值--有效性衡量(MoE)。关于效果衡量的决定是很重要的,因为准确的效果衡量将为战略上的选择提供基础。不正确的MoEs会导致不正确的战略决策,也许还会导致对决策错误的原因理解不足。这方面的一个例子(虽然不是在空战的背景下)是越南战争,美国的早期战略是最大限度地消灭越共士兵。由于越南北部的领导层并不十分重视他们的步兵,美国的战略最终导致了战争的失败。接下来,汉密尔顿建议计算冲突双方战略之间所有可能的相互作用的综合价值。这将产生一个回报矩阵,从中可以得出每个玩家的最佳或主导战略,然后得出一个均衡解。因此,在军事领导人可能参与的任何交战之前,他们对游戏的预期结果有一个成熟的想法。汉密尔顿在这些准则中加入了一个注意事项,即把军事行动的长度作为一个整体来考虑。如果资源的替换成本低或数量多,那么可以分配给一次战役或打击攻击的价值就可能很小。然而,根据整个战役中这种小规模冲突的数量,这些资源可能会变得非常关键。

为了说明这些观点,汉密尔顿将其应用于一个标准的海空导弹和时间关键目标的空战游戏。在这场战斗中,"蓝方 "正试图消除一些地面目标。为了做到这一点,他们使用了海空导弹。作为回应,'红方'将发射防空导弹,而防空导弹则要努力避开。然而,在期待这种回应的同时,蓝方也有攻击机,它们可以防御海空导弹并反击萨姆导弹,但无法攻击目标。蓝方的问题是:目标的价值是什么,应该为目标部署何种比例的海空导弹和攻击机?同样,对于红队来说:目标的价值是多少,如果有的话,应该发射多少枚防空导弹?汉密尔顿认为,红方的最佳策略是只在交战的一小部分时间内开火,这相当于:

最优蓝色策略是将部分飞机分配为SEADs,等于:

在这里,

Pks 是 SAMS 摧毁 SEAD 的概率

PkA 是攻击机摧毁 SAM 的概率

这种提法简明扼要地预测了在每一种可能的飞机和导弹发射任务下交战的可能结果。必须指出的是,在实践中准确量化不同目标和资源的数值是非常困难的。

Garcia等人2019年研究了在海上海岸线上防御两架敌机的问题,这两架敌机的主要目标是入侵防御方飞机控制的领土。而防守方则试图通过试图在离边界尽可能远的地方连续拦截两架敌机来防止这种情况。这是一个典型的追击-逃亡场景,代表了机器人、控制和防御领域的许多重要问题。在本文中,Garcia等人将这一问题表述为零和差分博弈,即防御者/追击者试图在离被防御的海岸线尽可能远的地方连续捕获两个攻击者/入侵者,而攻击者则合作并在他们被对抗之前使他们离边界的总距离最小。然后,Garcia等人通过解决一组非线性方程,在这个一防二攻的追逃博弈中找到攻击者和防守者的最优策略。本文讨论的合作策略为能力较弱(也许是速度较慢)的代理人在执行任务时提供了一个重要的协调方法。

Garcia等人在2017年考虑了一个空战场景,即被攻击导弹攻击的目标飞机利用防御导弹来保护自己,因为它试图在防御者达到与攻击导弹尽可能近的距离时逃离攻击者。该游戏被称为主动目标防御差分游戏(ATDDG)。在本文中,作者扩展了以前在这个三方问题上所做的工作,为ATDDG开发了一个闭式分析解决方案,其中防御者导弹如果进入一个半径为rc>0的捕获圈内,就可以击败攻击者。此外,尽管攻击者采用了未知的制导法,而不是假设它是比例导航(PN)或追求(P),本文所展示的闭式最佳状态反馈解决方案应该是有效的。最后,作者提供了一套目标飞机的初始条件,在这些条件下,尽管攻击导弹采用了未知的制导法,但如果目标防御者团队发挥了最佳作用,其生存就会得到保证。

Deligiannis等人考虑了多输入多输出(MIMO)雷达网络中存在多个干扰器时的竞争性功率分配问题。雷达网络的主要目标是使雷达发射的总功率最小,同时对每个目标达到特定的探测标准。在这个问题上,雷达面对的是智能干扰器,这些干扰器可以观察到雷达的发射功率,从而决定其干扰功率,以最大限度地干扰雷达。在这里,Deligiannis等人将这个功率分配问题视为一个非合作博弈,参与者是中央雷达控制器和干扰器,并使用凸优化技术解决这个问题。此外,他们还提供了这种情况下纳什均衡的存在性和唯一性的证明,在这种情况下,没有玩家可以通过改变其功率分配来进一步获利。

同样,He等人考虑了多态雷达网络中的雷达对抗问题,其中研究了在存在智能干扰器的情况下联合功率分配和波束成形的博弈论表述。该网络中每个雷达的目标是满足目标的预期探测性能,同时使其总发射功率最小化并减轻潜在的干扰。另一方面,干扰器的目标是调整自己的发射功率来干扰雷达,以保护目标不被发现。首先,He等人研究了功率分配博弈,每个参与者(雷达和干扰者)的策略集由各自的发射功率组成。然后,他们着手解决相应的优化问题,以计算出雷达和干扰者的最佳响应函数,并表明纳什均衡的存在和唯一性。接下来,他们再次将有干扰者存在的联合功率分配和波束成形器设计问题视为非合作博弈,并提出了一种功率分配和波束成形算法,该算法被证明可以收敛到其纳什均衡点。

McEneaney等人研究了无人驾驶飞行器(UAVs)对地面目标和地对空导弹(SAM)系统等防御单位的指挥和控制问题。这项工作的动机来自于无人驾驶空中作业场景中对作业计划和实时调度的要求。该问题被模拟为蓝色玩家(无人机)和红色玩家(包括萨姆导弹和地面目标)之间的随机博弈。每一方都可能有一些目标:例如,蓝方玩家可能试图摧毁一个战略目标,同时尽量减少对自己的损害。另一方面,红色玩家可能试图对无人机造成最大伤害,同时保护自己不受无人机的攻击。

无人机的控制策略由一组离散变量组成,对应于要攻击的具体目标或防空导弹,而防空导弹的控制策略是将其雷达 "打开 "或 "关闭"。请注意,当雷达 "打开 "时,防空导弹对蓝方玩家造成伤害的概率会增加,而蓝方玩家对防空导弹造成伤害的概率也会增加。这个随机博弈的解决方案是通过动态编程得到的,并通过一些数字例子加以说明。这项工作的主要贡献是分析了不完全信息下随机博弈的风险敏感的控制方法。特别是,这种方法不仅可以处理由于随机噪声造成的噪声观测,还可以处理观测中包含对抗性成分的情况。

Wei等人开发了一个用于多个无人驾驶战斗飞行器(UCAVs)协同工作的任务决策系统。UCAVs的武器是空对空导弹。在论文中,由一架无人驾驶战斗轰炸机和两架UCAV组成的红色UCAV小组试图打击一个蓝色小组的地面目标。蓝队有自己的一套UCAVs,其目标是击败红队。一枚特定的导弹对其选择的威胁的成功取决于攻击者和威胁之间的距离、它们的相对速度和相对角度。该场景被表示为一个同步正常形式的博弈,团队的策略与蓝队实体对红队实体的分配相对应,反之亦然。在本文中,红队或蓝队的回报是基于考虑特定分配的有效性,而这又取决于对立团队分配分组之间的相对几何。Dempster-Shafer(D-S)理论被应用,其中D-S组合公式被用来制定报酬。这些为每个策略计算的报酬,然后被放入双矩阵中,即每个团队都有一个,并使用线性编程优化方法解决。如果不存在最优的纳什均衡,则采用混合策略的方法进行求解。然后,作者开发了一些具有不同几何形状的任务场景,并说明了其博弈论分配策略的使用。他们使用包含红队和蓝队相互靠近的实体几何图形的注释图来证明由他们的报酬公式确定的分配策略是令人满意的。

Ma等人开发了一种博弈论方法,为在超视距(BVR)空战对抗中相互交战的多个无人驾驶飞行器(UAV)团队生成一种合作占用决策方法。由于导弹技术的发展使远程交战成为可能,BVR作战成为可能。在本文中,每一方的团队首先决定其无人机实体的占用位置(笛卡尔空间中的立方体),然后为每个无人机团队成员选择目标。目标是让每一方获得最大的优势,同时经历尽可能小的威胁条件。零和同步双矩阵博弈被应用于分析该问题。对于一个给定的无人机占有率,高度和距离的优势公式,考虑到射程和武器的最低/最高性能标准,用于产生效用函数的报酬值。由于游戏的规模会随着每队占用方块和无人机数量的增加而导致规模的爆炸(从而导致策略的爆炸),作者选择了在早期作品中为解决大规模零和博弈问题而设计的Double Oracle(DO)算法,将其与Neighbourhood Search(NS)算法相结合,成为Double Oracle Neighbourhood Search(DO-NS)。通过模拟,作者说明,结果显示DO-NS算法在计算时间和解决方案的质量方面优于DO算法。

Başpınar, Barış等人的工作重点是使用基于优化的控制和博弈论方法对两个无人驾驶飞行器(UAVs)之间的空对空战斗进行建模。在这项工作中,车辆运动用特定的变量表示,任何从一个航点到另一个航点的轨迹规划都是通过确定满足平坦输出空间中的定义条件的平滑曲线来解决的。在确定之后,所有参与描述平滑曲线的变量都可以恢复到原始状态/输入空间。其影响是通过减少所需变量的数量来加快任何轨迹优化的解决。然后利用博弈论,两个无人机之间的空中战斗被模拟成一个使用最小值方法的零和游戏。也就是说,当对手采取最佳策略时,每一方都试图使其收益最大化。这里,目标是让每个无人机直接进入对方身后,并在一定范围内满足机载武器有效射程限制。

在[81]中,作者提供了与基于方位角和轴承角的目标追尾程度有关的成本函数,以及与对手在最佳射程的某个阈值内时产生最大得分有关的成本函数。这些成本函数相乘,形成总成本。成本函数被放入一个后退地平线控制方案中,在一个给定的前瞻时间段内,通过选择控制措施确定的轨迹规划被执行,在这个时间段内,双方都使用相反的策略。每个玩家将其对手视为地平线内的可达集,并以此来选择其控制的选择,以使其报酬最大化。这个过程每隔几个控制步骤就会重复一次。与该领域的大多数其他作品不同,作者使用了性能包络内的全部控制输入,而不是一个子集(例如,转弯、保持哈丁、以特定角度左滚、immelman、分裂S或螺旋俯冲),从而指向为每个玩家的策略生成一个更优化的解决方案。文章提供了两种模拟情况,第一种情况是任何一个无人机都没有开始处于空中优势地位,然后行使后退地平线成本函数优化,在最佳射击范围内与对手进行追尾。作者表明,在飞行过程中,应用控制时的速度、载荷系数和岸角都没有违反界限,而且产生了可行的轨迹。在第二次模拟中,无人机最初处于追尾状态,但不满足射击范围内的标准。被追赶的对手通过应用成本函数进行机动逃跑,而追赶者继续追赶。在交战结束时,满足了射击范围内的标准,目标在正前方,但处于一个次优的方面,这导致其逃脱。这些场景被用来证明所开发的控制策略的有效性,从而为两个无人驾驶飞行器相互交战提供自动选择战斗策略。

Casbeer等人,考虑了这样一种情景:追击无人驾驶飞行器目标的攻击者导弹被两个与目标结盟的实体发射的防御导弹所吸引,而这两个实体与目标合作。它从典型的三方博弈情景中延伸出来,在这种情景中,只有一枚防卫导弹与目标合作的攻击者交战。作者在此将其称为主动目标防御差异博弈(ATDDG)。除了计算扩展到ATDDG中的玩家的最佳策略外,本文还试图确定当目标使用两个防御者而不是一个防御者时,其脆弱性的降低程度。本文提出了一个受限的优化问题来解决这种情况。结果表明,目标通过选择与任一防卫者合作,可以更成功地逃脱攻击者。此外,两个防御者的存在使攻击者更容易被拦截。当两个防御者的导弹处于良好的位置时,都可以拦截攻击者。

Han等人提出了一个综合防空和导弹防御(IADS)的问题,即配备拦截导弹(IM)的地对空导弹(SAM)电池与针对城市的攻击者导弹(AM)交战。该问题是一个简化的具有完全信息的两方零和博弈,有三个阶段。这三个阶段对应的是防守方为城市配置防空导弹,然后是攻击方为城市配置导弹,最后是防守方为反击攻击方的导弹配置拦截导弹。这个问题的简化假设是,在一个城市附近只分配一个防空导弹,每个地点只安装一个。此外,针对每枚攻击导弹发射的拦截导弹不超过一枚。此外,一个DM只能分配一个IM,每个SAM都有相同数量和类型的IM,而AM是相同的,并且是单发发射的。试图用广泛形式的博弈树、α-β修剪和使用Double Oracle(DO)算法来解决需要保护的六城市网络的三层博弈。DO算法是一种启发式算法,不保证能找到次完美纳什均衡(SPNE)。我们研究了每种算法达到次完美纳什均衡的效率。对于博弈树方法,得出的结论是,由于问题的组合性,战略空间的大小被确定为增加到一个难以解决的大小。当应用α-β修剪时,与DO算法相比,本文确定确定SAM电池、AM和IM的数量在计算时间方面没有很好的扩展。然而,在少数情况下,DO算法确实无法找到SPNE。尽管如此,作者还是更喜欢DO算法,因为它被证明不违反单调性(报酬的增加)和解决方案的质量趋势(计算时间的非指数增长),即使当问题的规模从6个城市增加到55个城市。

3.4 研究网络战争的论文

涉及博弈论在网络战争(不同于网络安全)中的应用的论文很少。其中重要的是,Keith等人[84]考虑了一个多领域(网络与防空相结合)的国防安全博弈问题。两个玩家在一个零和的广义博弈中相互交锋,一个是防御者,代表一个配备了网络战保护的综合防空系统(IADS),一个是攻击者,能够释放空对地威胁(导弹、炸弹)以及网络攻击(针对IADS网络)。这里,回报被选为预期的生命损失。防守方希望将其降至最低,而攻击方则希望将其最大化。保护IADS的网络安全游戏问题被嵌套在物理安全游戏问题中。玩家的行动对应于激活IADS/网络安全响应节点的分配,对应于防御方的人口中心,以及攻击方攻击IADS/相关的网络安全节点的分配。通过提供不完善的信息,游戏的真实性得到提高;也就是说,防御者和攻击者并不完全了解节点的脆弱程度。此外,防御者只能概率性地感知节点的网络攻击,这意味着其对特定IADS的网络防御团队的分配也只是概率性地有效。对于攻击者来说,它也可以在物理攻击一个节点后确定其网络攻击的有效性。这项工作通过引入综合领域、代理行动的多个时期以及使玩家能够不断地采取混合形式的策略,为推动安全游戏文献的发展奠定了基础。作者认为这是第一项在安全游戏中比较蒙特卡洛(MC)和基于折扣和稳健的反事实后悔最小化(CRM)方法的工作。最初,对于问题的小规模版本,以序列形式的线性程序的形式确定防御者的纳什均衡(NE)。然后,问题被逐渐放大,以包括更多的人口中心来防御,直到一个上限。这里,引入了一种近似的CRM算法,以减少计算时间,同时尽可能地保留特定策略的最优性。当规模进一步扩大时,引入了折现的CRM,进一步减少了计算时间。

对问题和算法的参数空间进行了探索,以选择最佳的调整参数,并从算法中提取最佳性能。通过引入有界理性,使参与者的理性受到限制,因此他们不一定做出最佳反应。他们只能管理近似的稳健的最佳响应动作。一个棋手的稳健最佳反应被定义为完全保守的NE策略和完全激进的最佳反应策略之间的妥协。它在棋手的策略中引入了弱点。对于一个棋手来说,他们的策略能够利用对手的策略的能力被称为利用。反之,他们的战略对于对手的脆弱性被称为可利用性。当运行所有引入的不同算法时,结果显示纳什均衡解是最安全的策略,因为所走的是不被利用的最佳棋步,然而,它并没有为玩家产生最高的效用。性能图显示,稳健的线性程序产生了最高的平均效用和最高的可利用性比率,同时也消耗了最大的计算时间。数据偏向的CFR被认为提供了最好的权衡,它提供了一个高的平均效用,一个有利于开发的可利用性比率,同时以最低的计算时间运行。

3.5 研究太空战的论文

在空间战争领域,人力资源和风险要少得多,因此重点是网络力量和独立自主代理人之间的互动,连接或其他。最终,这些方面的战争将以远远超出人类认知能力的速度和维度运作。由于交战中决策的快速性和复杂性几乎肯定会超出军事人员的理解能力,博弈论将取代决策者作为整个软件和控制系统的一部分,并将未来的技术注入到计算时考虑人类/社会因素。随着对连接性和网络化的更多关注,这些领域的成功关键依赖于有效的沟通渠道和整个系统的共同目标。在这一新兴的研究领域,应用博弈论的论文往往关注卫星网络。

Zhong等人设定了一个雄心勃勃的目标:优化整个卫星网络的带宽分配和传输功率。他们的研究以讨价还价的博弈论为基础,必须在网络中的每一个点上实现对干扰约束、服务质量要求、信道条件以及卫星的发射和接收能力的妥协。干扰限制和带宽限制是在讨价还价游戏中需要协商的盈余,每个卫星使用不同的策略来提高其效用/资源份额。这使得复杂性迅速升级,该模型最重要的收获是将一个问题映射到合作讨价还价的游戏框架中。

同样地,Qiao和Zhao详细介绍了卫星网络中节点的有限能量可用性的一些关键问题。他们的论文通过一个路由算法的博弈理论模型提供了一个解决方案,并利用它来寻找不均衡网络流量的均衡解决方案。该模型定位了某些网络热点,这些热点正在储备大量的能量,并采取措施均匀地分配资源。这是在网络中多个参与者之间进行讨价还价/合作博弈的另一个案例。

3.6 研究目标跟踪的论文

由于目标跟踪是一个成熟的研究领域,我们发现了一些应用博弈论跟踪问题的论文。其中大多数都有重叠的战争领域,并没有过多强调在某个特定领域的适用性。例如,Gu等人研究了使用传感器网络跟踪移动目标的问题,该网络由能够提供一些与位置有关的目标测量的传感器组成。每个传感器节点都有一个观察目标的传感器和一个估计其状态的处理器。虽然传感器之间有一些通信,但这种能力是有限的,因为每个传感器节点只能与它的邻居通信。由于目标是一个能够最小化其被对手探测到的智能代理,从而有可能增加跟踪代理的跟踪误差,这使问题更加复杂。Gu等人在零和博弈的框架内解决了这个问题,并通过最小化跟踪代理的估计误差,开发了一个稳健的最小值过滤器。此外,为了处理传感器节点有限的通信能力,他们提出了这种滤波器的分布式版本,每个节点只需要从其近邻获得当前测量和估计状态的信息。然后,他们在一个有智能目标的模拟场景中展示了他们算法的性能,并表明虽然标准卡尔曼滤波器的误差会发散,但考虑到对手的噪声的最小化滤波器可以大大超过卡尔曼滤波器的性能。

Qilong等人同样解决了跟踪智能目标的问题,但他们模拟了一个场景,跟踪者也在追击,重点是保护目标。此外,目标可以向攻击者/追踪者发射防御性导弹。攻击者对目标和防御性导弹都有一个视线。目标计划让跟踪器慢慢拉近与目标之间的距离,同时进行机动,以了解攻击者的反应。当攻击者接近碰撞时,防御性导弹被释放。然后,目标和导弹进行沟通,利用对攻击者运动模式的了解,并遵守最佳线性制导法,以摧毁攻击者。这被模拟为攻击者、目标和防御性导弹之间的零和竞争游戏。然而,本文还关注了目标和防御性导弹之间的合作博弈,这是一个非零和博弈。对他们来说,报酬是通过最小化的失误距离(理想情况下等于零--与攻击者的碰撞),以及引导防御性导弹所需的控制努力来计算。

Faruqi讨论了将微分博弈理论应用于导弹制导的一般问题。他们指出,导弹的轨迹遵循比例导航(PN),这是归航导弹通常使用的制导法。这些系统的性能是由线性系统二次性能指数(LQPI)来衡量的。在微分博弈论方面,他们通过用一组微分方程表示导弹的导航和轨迹来模拟导弹制导问题。这个问题的一般形式是

在这里,

:是玩家i w.r.t 玩家 j 的相对状态

:是我输入的玩家

:是玩家j的输入

F:是状态系数矩阵

G:是玩家输入系数矩阵

Q:是当前相对状态的性能指数 (PI) 权重矩阵

S:是最终相对状态的 PI 权重矩阵

Ri,Rj:输入的 PI 权重矩阵

Faruqi 主要专注于两人和三人博弈,而效用函数是基于导弹和目标之间的相对距离向量建模的。Faruqi 表明博弈论可以有效地用于现代导弹中涉及 PN 的导弹制导任务。

另一方面,埃弗斯利用博弈论分析了对战区弹道导弹(TBMs)的防御。弹道导弹和核技术的扩散对军事冲突有着重要的影响,失败的代价可能导致整个城市的毁灭。由于它们的射程很远,威力很大,尽管其有效载荷可以有很大的变化,但很难确定其发射位置。在对抗这种威胁时,防卫国确实有一个优势,那就是通常有一个很长的飞行轨迹,通常分为三个阶段,在这期间可以对TBM进行拦截。推进阶段标志着发射和TBM上升的大部分时间。助推阶段的结束标志着烧毁,之后TBM进入中段阶段。这个阶段是飞行时间最长的阶段,为防御者提供了拦截TBM的最佳机会。在中段阶段之后,TBM进入了重返大气层的终结阶段。这是防御者拦截导弹的最后机会。飞行路线如下图4所示:

图 4. 战区弹道导弹的飞行路径

导弹在合理延长的飞行时间内行驶了很远的距离。然而,从它的实际地理位置来看,防卫的军队或国家只能在飞行的终止阶段运用其资源来防御它,在这个阶段风险要高得多,失败的代价也最大。出于这个原因,埃弗斯提出了一种合作战略,即防守国与周围的国家结成联盟,以便它们也能在TBM前往撞击地点的早期阶段尝试拦截它。因此,游戏被分为两个小游戏:第一个是合作性的多人游戏,为国家联盟设计一套战略,以便在TBM的整个飞行路径中使用;第二个是防卫国和潜在盟友之间的讨价还价和合作游戏。

击落TBM的合作游戏的基础是一种叫做 "射击-观察-射击 "的策略。它依赖于一组N个国家使用一组策略--他们的拦截导弹--来攻击目标,每个导弹都有自己的拦截概率Pi。当TBM飞行时,N国中的每个国家都会发射其导弹Mn来拦截TBM,然后看看它是否成功地消除了威胁。如果它失败了,下一个国家的导弹Mn+1将被发射。然后,博弈的问题就被简化为优化整套策略的拦截概率,从而使其具有阻止TBM的可行可能性。博弈论在这里是有用的,因为合作博弈论的原则提供了一个强大的数学框架,通过这个框架可以为一组合作的国家达成一个均衡的解决方案。

埃弗斯描述的第二个游戏是基于与其他国家的谈判,以形成一个联盟。对于这些其他国家来说,参与这个游戏是一种风险,因为它使他们成为攻击部队的另一个潜在目标。为了解决这个游戏,防卫国必须准确评估拦截器的成本节约,也就是说,通过防止TBM的影响可以获得多少收益。随着这些节省的费用成为合作国家可以分享的盈余,潜在的盟友就如何分享这些节省的费用进行谈判,与他们所能提供的拦截资源成正比。

Shinar和Shima继续研究追击-规避游戏和弹道导弹防御的零和游戏,即一个高度机动的弹道导弹避开拦截导弹。更具体地说,它在博弈中加入了一个不完美的信息元素,即弹道导弹知道自己正受到反导弹的攻击,但对其弹道或发射位置知之甚少。在这个游戏中,两个玩家是弹道导弹和拦截者。如果弹道导弹使用纯粹的策略,它很可能会被击中,因为它要么(a)不能对它所知甚少的对手做出足够快的反应,要么(b)会以可预测的方式移动,并允许以直接的弹道走向碰撞。因此,弹道导弹的最佳博弈方案是在混合策略中。

混合策略将在其飞行模式中纳入随机性,为一组纯策略分配一个概率分布。这些纯策略将基于基本的导航启发法,这些启发法很可能是拦截器已知的或容易发现的。通过应用少量快速和随机的策略切换,弹道导弹可以最大限度地发挥其避免拦截的潜力,并将时间计算的复杂性强加给拦截者。

Bogdanovic等人从博弈论的角度研究了一个多目标跟踪的目标选择问题。这是多功能雷达网络中的一个重要问题,因为它需要同时执行多种功能,如体积监视和火力控制,同时有效地管理可用的雷达资源以实现指定的目标。因此,实际上,他们在[92]中处理了一个雷达资源管理问题,并使用非合作博弈论方法来寻找这个问题的最优解。他们在一个框架中制定了这个问题,每个雷达都被认为是自主的;没有中央控制引擎来通知雷达它们的最佳策略,雷达之间也没有任何交流。首先,他们考虑了所有雷达对目标有共同利益的情况,对于这个问题,他们提出了一种基于最佳响应动力学的分布式算法来寻找纳什均衡点。然后,这个问题被扩展到雷达之间的异质利益和部分目标可观察性的更现实的情况。对于这种情况,他们采用了相关均衡的解决概念,并提出了一种基于遗憾匹配的高效分布式算法,该算法被证明可以达到与计算量更大的集中式方法相当的性能。

最后,Parras等人研究了一个追求-逃避博弈,涉及无人驾驶飞行器(UAVs)的抗干扰策略。该博弈在一个连续的时间框架内运行,因此是动态的,在微分博弈论的帮助下被解决。在某种程度上是上述工作的高潮,它结合了通信优化、传感器规避和导航的元素。鉴于无人机需要强大的通信来控制和传递信息,这种依赖性使得无人机非常容易受到干扰攻击。有多种策略来干扰和反干扰这些通信,这可以被认为是一个零和游戏,无人机必须试图优化其通信能力。通常情况下,干扰者的定位和移动是不确定的,所以这个游戏是一个不完全信息差分游戏。对无人机来说,最重要的回报是避免因干扰而失去通信,它可以通过操纵来对干扰剂的距离进行近似,从而避免它们。

3.7 涉及国家安全的论文

博弈论涉及的国土安全的关键部分是网络安全、模拟恐怖主义威胁和国防合同。随着计算机科学的许多应用,博弈论很适合用于网络安全问题。博弈论结合了计算机科学严格的数学严谨性,以及更多的心理学和哲学元素,如攻击者的动机和心态,以及网络安全中人的脆弱性。恐怖主义建模也同样受益于博弈论的心理学色彩,因为恐怖活动的许多影响是不容易量化的,包括社会、经济和其他受恐怖威胁影响的领域,所有这些都可以在博弈论的背景下建模。最后,博弈论适合于承包和分包这样的课题,因为它能有效地捕捉到自私的个人之间的互动,这已经被用来模拟国防承包商的行为。

Litti的论文简要介绍了传统的网络安全启发式方法如何能更精确地更新,以及博弈论如何能帮助网络安全工程师设计策略来正确预测、缓解和处理受到威胁的网络。他开发了一种定性的方法来评估网络攻击的潜在风险和成本。虽然是一篇相当短的论文,但它确实提供了一些博弈论在实践中的网络安全情境案例。例如,他建立了一个双人零和博弈的模型来代表攻击者和安全系统。各个节点都有自己的相互依赖性、脆弱性和安全资产,但通过合作,将攻击者破坏系统的可能性降到最低。

Jhawar等人提供了一种更具体的博弈论方法,即攻防树(ADTs),来模拟涉及网络安全威胁的场景。在这里,ADTs被用来在一个配备了自动防御协议的系统上绘制潜在的攻击和防御场景。该系统需要全面解决所有可能的漏洞,并产生适应网络安全攻击的积极演变情况的反应。目前,ADTs只提供前期的系统分析。拥有一个反应式的网络安全策略是很重要的,因为攻击者会不断改变他们的攻击策略来进行进攻,所以实时反应的时间可以使系统的防御成功和失败之间产生差异。在Jhawar等人的文章中,他们建立了一个攻击者和防御者的简单游戏模型--黑客和安全网络管理员。黑客试图破坏系统的完整性,对于他们的每一步行动,管理员都会根据攻击者的尝试设计一个反应性的策略。这种方法最大的效用来自于将长的广泛形式的游戏转换为图形布局的能力,以便于理解和交流。

冈萨雷斯清楚地概述了一个标准的攻守双方的竞争游戏,然后利用基于实例的学习理论和行为博弈理论。前者将认知信息编译成一种被称为实例的表示。每个实例都有一个由情况、决定和效用三部分组成的结构--标准的游戏。然而,这种方法的关键是实例之间的互动。基于实例的学习理论利用每个实例的学习结果反馈到下一个实例的情况,希望能在以后的迭代中做出更好的决定。这明显类似于机器学习中的强化学习技术。另一方面,行为博弈论涉及到设计一种策略,我们评估各种因素,对目标和资源进行更精确的长期评估,使效用分数更接近于反映现实生活的价值。再次,博弈论促进了网络安全应用中社会信息的获取,并评估了这将如何影响游戏中双方的行为。其他关键因素包括玩家的动机因素,每个玩家的信息完整性,以及玩家和技术之间的技术限制和低效率。冈萨雷斯强调,在任何网络安全模型中容纳这些因素的重要性将有助于为网络防御制定更现实和有用的政策。

网络安全的一个常见用途是用于预防恐怖主义。Hausken等人用一些指导性的博弈论原则涵盖了恐怖主义和自然灾害的建模。恐怖主义和自然灾害是通过用反恐怖主义、反灾害和反所有灾害的投资来进行防御。对这些事件发生的可能性进行预测,防御者必须对每项防御的投资额做出战略决策。在这些情况的效用函数中需要考虑的成本包括恐怖分子的情报或自然灾害的随机性/环境控制;攻击/灾害的强度,以及恐怖分子和防御者之间对目标价值评估的差异。本分析中使用的博弈论方法抓住了防御者在打击每个威胁时的努力。根据每个事件的可能性,结合每个防御系统的成本,防御者可以得出资金的最佳分配方案。

Kanturska等人提出了一个严格的检查,即当不同地点的攻击概率未知时,如何使用博弈论评估运输网络的可靠性。该方法倾向于使用最小化算法在多条路径上分配风险,只要旅行成本相对于攻击造成的潜在损失较小。这对于评估安全护送贵宾穿越城市的潜在风险很有用。博弈论在这种情况下很有帮助,因为它可以分析攻击概率未知时的网络可靠性。

Bier提出了基于博弈论的有用建议,用于政策见解和投资决策、保险单的保费等等。她的工作讨论了最弱环节模型:一种将所有资源集中在防止最坏效用情况的策略。这在实践中通常并不理想,她反而建议考虑用各种防御战略来对冲这些投资,针对不同的潜在目标。本文考虑了恐怖分子/防御者的博弈,以及安全投资如何改变整个社区的攻击者-防御者互动的景观。这主要是通过其自身的范围研究来完成的,其中一个关键的收获是,恐怖主义缓解系统可以从博弈论中受益,因为它增加了一个额外的考虑,即恐怖分子对任何防御机制的反应。因此,博弈论与对所有系统进行风险和可靠性分析的整体方法相结合,可以对反恐战略中的所有潜在风险和漏洞进行更全面的评估。

Cioaca研究的问题与前面提到的Bier等人的问题类似,但特别关注航空安全问题。该问题的总结是针对机场安全措施的成本和维持一个稳定而有弹性的防御系统的成本。关键的策略是:完全防止攻击或威胁(通过取消对目标地点的所有访问或限制航空公司的权限,如果他们没有遵守规定的准则);管理攻击的时间维度(攻击的长度和随后的恢复时间);了解所有直接和间接的损失(包括伤亡和相关的损害,如污染或感染,受损的二级安全措施,或声誉/信号的影响);以及缓解、响应和恢复的成本。

该模型是围绕几个因素和参数建立的。首先也是最关键的是人员损失和物质损失。 H 指人员损失,D 指物质损失,指分配给相关安全系统的预算。攻击中最明显和最直接的损失,这两种损失在这种攻击中是非常负面的回报,并且通常比任何防止它们的成本都要高。人员损失 H 难以用数值量化,因此在对资源划分进行适当评估时,了解如何在不同人群和不同维度上最小化人员损失是该问题最困难的方面之一。物质损失 D 可以用货币量化,但这种损害的连续影响通常是造成重大损失的地方。这些损失可能导致基础设施全面关闭、设施停止运转、工人失业,甚至可能导致设施的缓慢衰退和完全关闭。这场比赛的第二个主要因素是分配给安全系统的预算。组织和管理机构将只有一定数量的资源分配给安全系统 T。下一个因素是安全系统组件的数量,因为这将是预算的组成方式。这些组件中的每一个都被划分为 n 个单独的系统子组件之一。这些组件被划分为多个目标,并且这些目标中的每一个都被分配了一个被攻击的概率和一个值。这可以正式表示为:

对于任何资源划分系统,Ciaoca 主张建立衡量系统弹性的维度。这分为静态弹性,资源的有效分配;动态弹性,冲击后系统的恢复速度,包括长期投资流入。这两种形式的弹性表示攻击之前、期间和之后的系统强度。在博弈论方面,Ciaoca 的研究清晰地定义了一个博弈,并结合了无数复杂且相互关联的参数,勾勒出一个有效且可计算的博弈模型。

我们讨论的关于国家安全的最后一篇论文是由 Gardener 和 Moffat撰写的。本文涵盖了制定战略以评估国防承包商及其履行合同义务的潜在绩效/能力的概念。用博弈论的说法,这个问题可以用合作和背叛来表达。加德纳和莫法特提出了量化方法,国防部可以通过这些方法更严格地评估合同和招标方案,从而明智地选择承包商并保护他们的预算。Gardener 和 Moffat 进一步了解了国防采购项目不同招标阶段项目管理的变更要求。他们关注的因素是乐观的阴谋,由于对项目进度的不合理预期,项目逐渐失控——超过了预算限制和必要的最后期限。通常,这种“阴谋”是为了获得短期收益,实际上会导致整体损失。所玩的投标博弈不再是关于项目的成功,而更多地是关于利润资本化,并可能进一步退化为相关国防部与整个承包商行业对抗的两人博弈。

3.8 研究其他/混合战争的论文

一些论文在防御环境中使用博弈论,但不能轻易归类为上述任何类型,或者它们与混合战有关。例如,Zhang和Meherjerdi研究如何在不同的通信框架中使用博弈论方法来使用和控制多组无人驾驶车辆。将单个无人驾驶车辆的任务分配给多个无人驾驶车辆会产生更有效的任务分配和性能。将劳动力从一辆强大的单一车辆分离到几辆较小的车辆提供了灵活性、适应性和改进的容错能力。这种网络的用途是监视、探索、卫星集群、结合无人驾驶水下航行器 (UUV) 和潜艇、飞机和无人驾驶飞行器 (UAV) 以及协作机器人侦察。从这个列表中可以明显看出,该策略非常强大,因为它能够跨多个域组合资源。

同样,可以注意到,搜索是一种“捉迷藏”游戏,在军事应用中有着悠久的历史。该理论是由 Koopman率先在军事背景下(寻找逃跑目标)提出的,随后由 Stone 等人的开发,应用包括潜艇狩猎、探雷、救援行动、第一响应者的风险以及危险源的定位。该框架提供了最优的先验给定检测模型、目标运动和搜索成本的搜索计划。搜索成本可能包括搜索时间、逃生概率(对于目标)、暴露风险(对于搜索者)、信息熵或态势感知(目标位置概率图)。搜索器可以是移动平台(UAV、UUV、巡逻艇、直升机、机器人、人),目标可以是静态的、可移动的、盲目的、无声的或发射的。在这种情况下,经常使用同时定位和映射(SLAM)算法。这一利基市场的新研究方向(受一些生物学应用的启发)采用了信息趋向的思想,或基于从环境中提取的信息(熵)增益(零星测量、禁区、搜索者之间的通信)实时控制搜索者的移动。博弈论的原理可以应用在可以建模为“捉迷藏”游戏的环境中。

4. 分类及影响

4.1 论文分类

在上一节中,很明显,许多论文在多个领域都有适用性,并且使用了无数类型的博弈并为一系列玩家建模。因此,必须以有原则的方式对已审查的论文进行分类。为此,我们使用第 2 节表 1中已经介绍的分类方案。

特别是,可以根据 (1) 战争的领域或类型 (2) 论文中使用的一种或多种博弈类型,以及 (3) 论文中建模的玩家的性质对所审查的论文进行分类。该领域可以大致分为传统(T)或现代(M),更具体地说,可以分为陆战、海战、空战、网络战和太空战。根据博弈是非合作的还是合作的、顺序的还是同时的、离散的还是连续的、零和还是非零和,所使用的博弈类型也可以有一个复杂的分类。最后,博弈可以是两人、三人或多人(多于三人)博弈。所有这些都在表 1中进行了简要介绍。

在表2中,我们提供了基于上述分类方案的所有评论论文的不言自明、详尽的分类。

表2.使用表 1 对国防博弈论应用领域的论文进行分类。此处描述的共有 29 篇论文被分类。

4.2 审查论文的影响相关指标

我们现在考虑的问题是,在这些论文中,哪些论文引起了研究界的最大兴趣,或者导致了后续或相关工作的开展。衡量这种影响的一个通常使用的指标是引文数,虽然这个指标显然偏向于早期的论文。尽管如此,在表3中,我们展示了所考虑的 29 篇论文的 Google Scholar 引用数。哪些论文被引用次数最多,读者不言而喻,我们不再赘述。然而,我们强调,引用次数并不是衡量影响力的唯一指标,也不一定是衡量一篇论文在研究领域的影响力的最有效方法。但是,它是一个现成的衡量标准,可以传达有用的信息。

表3. 已审查论文的 Google Scholar 引用数。谷歌学术引文数据于 2021 年 12 月 18 日访问。

表3还显示了每篇论文的原籍国,其定义是出现在相应作者的第一署名中的国家。可以看出,这些论文是由来自美国、英国、澳大利亚、中国、荷兰、加拿大、以色列、印度、德国、西班牙和罗马尼亚的研究人员撰写的。看来,美国、欧洲(尤其是西欧)和中国对在国防科学中应用博弈论有主要兴趣,同时我们承认,可能有几篇用英语以外的语言撰写的论文,我们没有考虑。

为了了解在上述分类中描述的不同领域之间是否存在充分的思想交流,我们考虑了在29篇评审论文中,有多少论文引用了同一组的其他论文。表4列出了根据谷歌学术的引用情况。令人惊讶的是,没有一篇论文被其他被审查的论文引用两次以上,而且大多数论文根本没有被这组论文中的其他论文引用。尽管这组论文的总体引用次数是健康的--根据表3,被审阅的论文平均被引用34.97次,而且有几篇论文被引用超过50次。然而,这些引用大多来自与国防科技有关的论文,这些论文使用各种方法和工具来解决类似的问题,显然,在国防应用中使用博弈论的研究人员之间几乎没有交叉交流。因此,除了我们在下面介绍的文献中的 "空白 "表明了潜在的研究机会外,还应该强调的是,应该提高对该领域类似工作的认识,这将可能导致在某一特定领域产生的想法被重新用于其他领域和与国防有关的其他应用。

表4. 根据谷歌学术,审阅过的论文中的引用情况。谷歌学术的引用数据是在2021年12月18日访问的。从该表可以看出,在该领域中相互引用对方的工作是极其罕见的。

5. 进一步研究的机会

审查的论文表明,博弈论可以提供一个统一的框架来分析代理在防御环境中的决策行为。在本节中,我们将简要讨论迄今为止尚未应用博弈论但如果在未来应用将做出有用贡献的一系列潜在防御场景。

国防高级研究计划局(DARPA)最近对 "马赛克战争 "的调查就是博弈论未来潜在应用的一个例子。这个想法是在操作多个无人驾驶飞行器的背景下被提到的,并建议在一个'马赛克'网络中拥有许多较小的具有成本效益的资源相互连接,这样,如果几个单位被摧毁,网络的整体完整性仍然存在,就像马赛克即使被移除几块瓷砖也能保持其图像。我们的目标是,这样一个具有不同能力的庞大资源阵列将能够以其完整性和复杂性压倒敌人。它利用并发性的原则来解决由数百万个传感器和执行器组成的系统中错综复杂的连接问题。这些系统又必须处理系统间的通信。如果成功实施,这样一个系统的系统可以为军事战略家提供一个压倒性的强大的武器装备和资源网络,它可以凭借其动态的规模和复杂性击败对手。这种将军火库的不同部分结合在一起的方法使每个部分的利益最大化,并重新引入了对资源消耗性的关注,而不是专注于几件高价值的武器装备。这反过来又为战略建立了弹性和适应性,摆脱了重量级的、单一重点的攻击方法。由于有大量成本较低的资源需要合作以获得最佳结果,这种情况在一个层面上可以被模拟成多人合作游戏,而与对手的争斗可以被模拟成多人非合作游戏。可以注意到,"马赛克战争 "的概念本质上类似于更普遍的基于代理人的建模概念,它已经被用于几个不同的背景,从无龄航空器设计到传染病动态建模,博弈论已经在其中一些背景下成功使用。

在海战的背景下,博弈论可以卓有成效地应用的另一个领域是海军的易损性。在分析海军的易感性时,海军舰艇要考虑其环境、运动模式和潜在的对手传感器,以计算其在秘密移动时被发现的风险。这样的应用与国防科学中通常研究的跟踪问题有重叠之处,正如顾氏所解释的,它描述了使用传感器网络的跟踪。如前所述,这种情况可以被建模为一个双人非合作性差分博弈,而探测是每个参与者的主要回报参数。

事实上,地基跟踪问题也可以从博弈论的应用中受益,而到目前为止,这一领域的论文还很少。地面追踪问题既可能出现在地面军事应用中(这里归类为陆战),也可能出现在国内安全和反恐应用中(这里归类为国家安全应用),其中安全机构在整个社会中追踪个人行动的能力--包括他们的位置、社会网络和动机--是一种关键能力。后一种情况可以被模拟为追击和躲避的双人游戏,或者也许只是追击和侦察,目的是不向目标透露追击的情况,而目标将试图识别追击。在这种情况下,从秘密跟踪中获得的预测性信息量将是回报。 赛博战建模是博弈论可以应用的另一个领域,同样,正如前面相关部分所述,除了主要来自计算机科学领域的论文之外,很少有论文涉及这一领域网络安全。Kim等人[124] 描述了所有军事行动不可或缺的网络战场景,并强调了物联网 (IoT) 和脑机接口等新技术范式所发挥的关键作用。防御专家越来越需要预测和先发制敌的网络战策略。使用新颖的技术接口对涉及网络战场景的决策制定进行建模是博弈论可以发挥重要作用的领域。

如上所述,根据表 4 ,在所呈现的文献中,似乎很少有交叉、思想交流,甚至对其他类似作品的认识,也可能被认为是一个“空白” 。因此,在国防应用中使用博弈论的研究人员之间加强合作是可取的,这将使博弈论方法在多个战争领域的重用。

6. 讨论

这里有必要讨论一下,除了总结现状和确定文献中的差距之外,像这样的评论如何为该领域增加价值。我们注意到,在选定的论文集中,从一篇论文到另一篇论文的引用很少。虽然很难说出其中的原因,但可以看到大多数研究都集中在特定的战争领域,如陆战、海战或空战,并试图解决特定战争领域的具体问题。因此,专注于不同战争领域的论文不一定被认为是另一篇在国防背景下应用博弈论的论文,而是属于不同战争领域的论文,因此没有被关注。然而很明显,这样的方法可能会导致错失机会,因为往往没有考虑到同一套博弈论工具还可以在哪里得到类似的应用。像这样的一篇评论文章将在一定程度上纠正这个问题。此外,我们可以看到,报酬函数的定义往往是僵化和狭隘的,是基于传统上被认为是某一类型战争的重要参数。例如,陆地战争的重点是尽量减少伤亡,而国家安全应用的重点是提高公众信心。然而,在大多数类型的战争中,有一系列的因素促成了最终的回报,从伤亡和军事资产的损失到公众信心、间接经济成本、机会成本、盟国的成本以及政治和战略考虑。这篇评论文章通过对几个战争领域的报酬结构的广泛概述,可能会刺激在每个使用博弈论的战争领域建立更全面的报酬函数模型。此外,从一般意义上讲,这篇评论将有助于强调与国防有关的决策是一个有条不紊的理性过程,可以进行结构化分析,而不是像过去国防界某些部门所认为的那样是一个直观的过程[125]。同时,所提出的分析将有助于避免一方面的微观管理和另一方面的冲动决策[126],而不是鼓励国防应用中的量化决策过程。

特别是,在作战和战术决策过程之外,所提出的评论还具有管理和社会意义。

6.1 管理影响

博弈论的应用对一个国家的国防力量非常有用,不仅在战术和作战方面,而且在和平时期的国防资产的战略管理方面也是如此。例如,出于威慑和作战准备的目的,军事资源的战略布局,如战舰、潜艇和战斗机,可以被视为一个合作博弈,或者相当于一个优化问题,可以通过线性编程或非线性编程来解决。同样,关于战略军事设施,如基地、简易机场、港口,甚至公路和铁路[127,128]的安置和建设的决策,也可以通过使用合作博弈论对相关情景进行建模来帮助。另一个可以应用博弈论的管理决策过程是后备军事人员的管理,包括何时征召后备人员。因此,博弈论不仅对做出作战决策的军事人员有用,而且对必须做出国防相关决策(包括在和平时期)的文职管理人员和政治家也有用,因为这些决策可能会产生长期的影响。

6.2 社会影响

在国防场景中应用博弈论的社会效益主要来自国家安全的观点。公众对国土安全的看法是国防考虑的一个重要部分,对国防开支有相当大的影响。国防和执法部门的决策者在做出国防开支决策时,不仅需要考虑实际的风险和威胁,还需要考虑感知的风险,以及受其影响的因素,如保险费用、对旅游业的影响、信用评级机构的评级、投资者对一个国家的投资意愿、安全措施的实际和感知成本等等。博弈论可以成为一个非常有用的工具,用来模拟这样一套复杂的因素和参数,以及不同情况下产生的整体回报。反过来说,这种决定一旦做出,显然会影响国家安全,并反过来影响公众对国家安全的信心和看法。因此,对风险的感知和国家安全的支出相互影响,博弈论所提供的工具集对于模拟这样一个复杂的反馈回路非常有用。显然,公众的情绪和对事件的看法在战时情景下也很重要,在战争的各个领域做出的决定都会影响公众的看法,这反过来可能会影响冲突的轨迹。因此,博弈论在国防场景中的应用具有明显的社会意义。

同样重要的是,本评论增加了新的见解,对理解指挥和控制战争很有帮助。其中一个见解是,智能代理之间的合作和敌对竞争并不像它们乍看起来那么根本不同:事实上,在某种意义上,它们都可以用同一个框架(博弈论)来表示,并且都涉及一些智能参与者、战略和回报。不同的是,敌对的竞争由非合作博弈论表示,其中一个玩家的报酬增加往往导致另一个玩家的损失(零和博弈是这种情况的一个特例)。另一方面,合作是由合作博弈论来代表的,在这里我们对联盟进行建模,有时还讨论 "公共利益 "的概念。当一个敌对的玩家有可能变成盟友或反之亦然时,这样的洞察力特别有用。另一个见解是,将防御场景作为游戏来建模的主要困难不是来自于确定可能的战略或参与者,而是来自于量化的回报。很多时候,我们审查过的论文在量化回报时做了一些假设、简化和估计,可以设想,这些过程引入的累积错误可能已经严重改变了游戏的结果,从而使建模变得无效。因此,许多论文在应用博弈论时面临的主要挑战是如何准确或合理地模拟报酬。除非像我们在这里所做的那样,对博弈论的几个防御性应用进行广泛的回顾,否则无法获得这样的见解,而这些见解对于塑造该领域未来的研究方向非常重要。

7. 结论

博弈论已被证明是一种通用且强大的工具,可用于深入了解许多领域的智能体和参与者的决策过程。在这篇评论文章中,我们详细阐述了博弈论可以应用于国防科学技术的几种场景,并简要回顾了该方向的现有研究。我们根据所研究的战争类型、使用的博弈类型和玩家的性质,对 29 篇评论论文进行了广泛的分类。基于所做的观察,我们确定了文献中的空白,即博弈论迄今尚未被广泛运用,但在未来有很大的潜力被富有成效地运用;我们还讨论了博弈论的国防应用在未来可能扩展的方向。

基于领域的分类是采用的主要分类模式,在此背景下,我们将审查的论文分为陆地、空中、海洋、网络和空间领域。我们还考虑了主要与跟踪和国家安全有关的论文。对于所考虑的每篇论文,都定义了参与者的数量和角色以及博弈类型,并在可能的情况下讨论了策略和收益函数。这项工作的目的是确定最常分析的领域以及经常使用的博弈类型,并利用这些知识来确定文献中的差距,在国防背景下的各个领域和战争类型中相互交流意见。

希望这次审查能产生几个积极的结果。我们发现了文献中的空白,并指出博弈论提供的工具集在分析某些战争模式时并未得到充分利用。例如,我们指出,使用博弈论分析的海战论文相对较少。我们还注意到,可以通过应用博弈论来分析新兴的战争模式,例如马赛克战。因此,本次审查可能会导致更多的博弈论方法来模拟这种战争模式。此外,我们强调了该领域内的引文网络非常稀疏:也就是说,在国防应用中使用博弈论的各种研究人员之间的思想交流是很少见的。这篇综述可能会成为该领域研究者之间合作和相互交流的催化剂。然而,最重要的是,这篇评论旨在向迄今为止尚未使用博弈论的国防科学家强调博弈论在国防应用中的效用,因此将为国防科学家引入一套新的工具,他们可以将其应用于他们的研究.

随着世界应对和平与稳定面临的新挑战,人类的未来取决于我们和平解决问题的能力。虽然这是一个崇高的目标,但权力的投射绝对比实际的武装冲突要好,后者在许多层面上都会付出很高的代价,博弈论确实可以在决定一些可能发生的“软冲突”中发挥作用在未来几年和几十年里。随着未来几年对国防战略和能力的关注可能会增加,博弈论可以作为一种额外的工具,国防科学家可以在许多抽象层次上使用它来解决部署、感知、跟踪和资源分配问题。

资金

这项研究是由澳大利亚国防科学技术集团资助的。

参考文献

成为VIP会员查看完整内容
127

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《塑造2040年战场的创新技术》欧洲议会研究处,142页pdf
专知会员服务
88+阅读 · 2022年4月14日
[计算博弈论及其应用],85页ppt
专知会员服务
120+阅读 · 2021年7月21日
麦克瑞大学最新「深度学习社区检测」综述论文,28页pdf
「时空数据分析」综述论文,44页pdf
专知
8+阅读 · 2021年3月20日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
自动驾驶最新综述论文(31页PDF下载)
专知
118+阅读 · 2019年1月15日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2010年12月31日
Convex-Concave Min-Max Stackelberg Games
Arxiv
0+阅读 · 2022年4月19日
An Attentive Survey of Attention Models
Arxiv
43+阅读 · 2020年12月15日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2010年12月31日
微信扫码咨询专知VIP会员