《扩展人工智能在支持决策的数字兵棋推演中的应用》

在这个前所未有的技术驱动转型时代，比以往任何时候都更需要积极投资开发强大的人工智能（AI），用于兵棋推演以支持决策。通过推进人工智能系统并将其与人类判断力相结合，将能够增强全域感知，提高决策周期的速度和质量，为新的行动方案提供建议，并更迅速地反击对手的行动。因此，必须加快人工智能的发展，以帮助更好地应对目前需要人类智慧才能应对的现代挑战和困境的复杂性，并在可能的情况下尝试超越人类智慧--不是取代人类，而是以机器的速度增强人类决策并为其提供更好的信息。尽管深度强化学习在智能体行为开发方面不断取得令人鼓舞的成果，可用于战斗建模和模拟中常见的长视距复杂任务，但仍需进一步研究，才能使人工智能的规模扩大到能够处理兵棋推演中错综复杂的广阔状态空间，从而进行概念开发、教育或分析。为了帮助应对这一挑战，在研究中，正在开发和实施一个分层强化学习框架，其中包括多模型方法和维度不变观测抽象。

利用人工智能进行兵棋推演

鉴于这些令人担忧的活动以及最近在人工智能变革能力方面取得的突破，显然必须开始更认真地投资于专门用于兵棋推演的人工智能开发。美国国家人工智能安全委员会（NSCAI）[27]详细阐述了两个信念：（1）"计算机系统解决问题和完成原本需要人类智慧才能完成的任务--在某些情况下甚至超过人类的表现--的能力迅速提高，正在改变世界"；（2）"人工智能正在扩大美国已经进入的脆弱窗口"。因此，有鉴于此，NSCAI得出结论："美国必须立即行动起来，将人工智能系统投入实战，并在人工智能创新方面投入更多的大量资源，以保护美国的安全，促进繁荣，保障民主的未来"[27]。NSCAI [27] 认为，通过推进人工智能系统并将其与人类判断力相结合，将能够增强全域意识，提高决策周期的速度和质量，为不同的作战行动提供建议，并更迅速地反击对手的行动。

尽管美国在大多数领域都享有军事优势，但机器学习（ML）的扩散已开始为竞争对手和其他国家行为者提供无数的破坏机会[28]。因此，现在比以往任何时候都更有必要积极开展研究和实验，以便对人工智能的优缺点以及如何将其用于规划和兵棋推演有一个扎实的了解，只有这样，国防部才能更好地做好准备，以应对战略突袭和破坏[28]。例如，如今的作战行动分析主要侧重于评估友军的计划，而很少强调对手可能会如何根据自身的目标和能力做出反应[26]。尽管不遗余力地试图了解对手的想法以及他们在冲突中会如何行动，但总是会受到自己想象力的限制。托马斯-谢林（Thomas Schelling）在他的 "不可能定理"（Impossibility Theorem）中说得最好： "一个人，无论他的分析多么严谨，想象力多么丰富，都不可能做的一件事，就是列出一个他不会想到的事情清单"[29]。人工智能支持的兵棋推演甚至有可能克服这一限制，创造出有自己目标的智能体，而这些智能体并不一定受限于思维和计划方式，因为思维和计划方式通常是通过几十年的经验根深蒂固的。此外，仅从数据中学习新的行为，人工智能就能自动执行原本需要人类智慧才能完成的任务[30]。

虽然在机器学习领域已经开展了大量研究，但兵棋推演和军事规划与迄今为止使用人工智能解决的传统问题--如图像分类和自然语言处理--有很大不同。任务分析和规划通常需要人类的直觉和启发式方法来限制搜索问题的规模 [28]。虽然启发式方法确实能更容易地找到可接受的解决方案，但这些解决方案的可扩展性或可靠性通常不足以评估可能出现的大量突发情况 [28]。此外，直觉也可能在非常复杂的问题中失效，例如那些涉及到有许多不同参与者的高维空间以及复杂的武器和传感器交互的问题[28]。不幸的是，这些复杂性正是可能决定未来战争的特征[26], [28]。

幸运的是，迄今为止，竞技游戏已成为学习如何实施人工智能以支持兵棋推演的良好试验平台。早期的成功包括掌握跳棋[32]、五子棋[33]、国际象棋[34]和围棋[35]。人工智能方法在视频游戏中也取得了成功，如 Atari 游戏 [36]、超级马里奥兄弟 [37]、Quake III [38]、Dota 2 [39]、星际争霸 II [40] 和无上限德州扑克 [41]。然而，竞技游戏通常都有一套固定的规则、确定的参数和基于已知变量的可预测结果。虽然这些游戏能为战略、决策和风险评估提供有价值的见解，但真实世界中的兵棋推演场景往往更加复杂--可能的初始游戏状态更多，分支系数更大，因此结果更加难以预测。因此，如何将人工智能从这些游戏中获得的成功转化为真正的军事行动是一项挑战。不过，从这些游戏中获得的人工智能学习和适应能力方面的进步，为人工智能在作战模拟中更细致的应用奠定了坚实的基础。

利用 "半人马 "概念进行兵棋推演

正如 CeTAS 报告[31]所详述的那样，可以采用大量不同的方法来利用人工智能支持兵棋推演；不过，在本文剩余部分的范围内，将讨论人工智能与兵棋推演的关系，即创建能够在战斗建模和模拟所特有的庞大而复杂的状态空间中做出理性决策的智能体。

然而，要证明人工智能能够赢得游戏或取得超人的表现，只是证明人工智能确实能为兵棋推演者、作战规划者和战场指挥官提供有用见解的第一步[42]。尽管如此，设想这些智能体将成为创建现代决策辅助工具的基础，与更传统的工具相比，这些工具能为决策者提供更高的准确性、速度和灵活性[28]--有可能加快决策过程并提供关键的洞察力。随着进一步深入多域作战[26]，在面对人工智能对手时，忽视这一步会带来巨大风险。

虽然人机协作的概念最初是由 Licklider 在 1960 年提出的[43]，但前国际象棋世界冠军加里-卡斯帕罗夫（Gary Kasparov）在 1997 年输给 IBM 的 "深蓝"（Deep Blue）[44]多年后，首次提出了 "半人马国际象棋"（Centaur Chess）的概念。尽管被人工智能击败，卡斯帕罗夫并没有将人工智能视为一种威胁，而是鼓励将人工智能视为一种工具，当它与人类的能力相结合时，可以带来前所未有的成就[44]。卡斯帕罗夫在他的著作《深度思考》（Deep Thinking：机器智能的终点和人类创造力的起点[44]》一书中，卡斯帕罗夫强调了利用人类和机器互补优势的必要性。计算机擅长暴力计算，每秒能分析数百万个局面，同时轻松计算出最佳的近期战术行动。另一方面，人类对战略、创造力和考虑特定棋步长期影响的能力有更深刻的理解，而这一切主要靠直觉[44]。卡斯帕罗夫认为，人类的直觉和机器的计算结合在一起，往往能比顶尖特级大师或计算机单独发挥出更强的棋力。卡斯帕罗夫指出，在许多情况下，即使是排名相对较低的棋手与计算机配对也能胜过顶级特级大师。

有趣的是，卡斯帕罗夫还指出，随着计算机国际象棋程序变得越来越强大，人类棋手在这种半人马合作关系中的角色也发生了变化。最初，人类专注于战略，而计算机则专注于战术，但随着国际象棋人工智能的改进，人类越来越多地开始扮演 "质量控制 "的角色，确保计算机推荐的棋步与人类更广泛的战略目标相一致[44]。事实上，卡斯帕罗夫经常说，国际象棋的未来可能不是人类与机器的对决，而是人类与机器配对，使用何种界面，能下出最好的棋。这种合作融合了机器的计算能力和人类提供背景、理解和直觉的能力--这种协同作用所产生的棋艺水平超过了任何一方单独发挥所能达到的水平。

为兵棋推演开发人工智能

虽然有许多不同的人工智能技术和方法可以应用于兵棋推演，如监督学习、无监督学习、遗传算法、自然语言处理、决策树、专家系统、博弈论、对抗网络等，但本文主要关注的是推进强化学习（RL）领域的需求，以支持为兵棋推演开发智能体行为。

说到机器学习，主要有三种类型：监督学习、无监督学习和强化学习。监督学习依赖于标注数据，每一组输入都有相应的预期输出。它类似于范例学习，最适合图像分类、回归和语音识别等任务。相反，无监督学习不依赖于标记数据。相反，它能发现数据中的模式或结构，比如对数据点进行分组或聚类，最适合异常检测、降维和数据分割。值得注意的是，还有其他类型的机器学习，如迁移学习、主动学习、自我监督学习等；不过，这些通常是上述两类学习的扩展或组合。

成为VIP会员查看完整内容