大型语言模型+兵棋推演结合《军事和外交决策中语言模型的升级风险》2024最新67页

各国政府正越来越多地考虑将自主人工智能代理集成到高风险的军事和外交政策决策中，特别是随着 GPT-4 等先进的生成式人工智能模型的出现。我们的工作旨在仔细研究多个人工智能代理在模拟兵棋推演中的行为，特别关注它们倾向于采取可能加剧多边冲突的升级行动。借鉴政治学和国际关系学中有关升级动态的文献，我们设计了一个新颖的兵棋推演模拟和评分框架，以评估这些代理在不同场景中所采取的行动的升级风险。与之前的研究不同，我们的研究同时提供了定性和定量的见解，并侧重于大型语言模型（LLM）。我们发现，所研究的五种现成 LLM 都显示出升级形式和难以预测的升级模式。我们观察到，模型往往会发展出军备竞赛动态，导致更大的冲突，在极少数情况下，甚至会导致核武器的部署。在定性方面，我们还收集了模型所报告的选择行动的理由，并观察到基于威慑和先发制人战术的理由令人担忧。鉴于军事和外交政策的高风险，我们建议在部署自主语言模型代理进行战略性军事或外交决策之前，进行进一步的检查和谨慎考虑。

图 1：实验设置。八个自主国家智能体，每次模拟都使用相同的语言模型（GPT-4、GPT-3.5、Claude 2、Llama-2 (70B) Chat 或 GPT-4-Base），在基于回合的模拟中相互影响。每个回合，1）智能体采取预先定义的行动，从外交访问到核打击，并向其他国家发送私人信息。2) 一个独立的世界模型 LLM 总结行动对智能体和模拟世界造成的后果。3) 行动、信息和后果在每天结束后同时揭示，并反馈到随后几天的提示中。模拟结束后，我们根据升级评分框架计算升级评分（ES）。完整方法请参见第 3 节。

相关综述

持续讨论。2023 年，众议员蒂姆-辽（Tim Lieu）在参议员爱德华-马基（Edward Markey）的共同支持下，提出了《阻止自主人工智能进行核发射法案》（Block Nuclear Launch by Autonomous Artificial Intelligence Act），规定美国核战略决策必须接受人类监督（保罗，2023 年）。安德森（Andersen，2023 年）强调了人工智能融入军事行动的不断升级，强调了允许人工智能进入关键的指挥和控制功能所固有的风险，尤其是在核能力方面。2023 年 10 月，拜登总统发布了《关于安全、可靠地使用人工智能的行政命令》，启动了专门针对国防人工智能应用的监督机制，指导商业、国防和情报机构之间的协调，以建立对构成安全风险的模型和计算能力的报告要求（拜登，2023 年）。(拜登，2023 年）。Hirsh（2023 年）讨论了各种风险，包括决策窗口减少、过度依赖人工智能进行战略和战术评估，甚至在核战争中也是如此，以及人工智能驱动的智能引发意外冲突的可能性，强调有必要对这些技术的军事应用所带来的危险进行审慎考虑、有意义的限制和强有力的评估。Hoffman 和 Kim（2023 年）探讨了将人工智能纳入军事战略的机遇和风险，重点关注美国和中国对人工智能在关键军事场景中提高决策能力的潜力的看法。Mikhailov (2023) 则更广泛地讨论了如何利用人工智能优化国家安全战略。最后，Scale AI 最近宣布与战略与国际研究中心合作，探索在兵棋推演中使用 LLM，但没有任何关于未来成果公开的信息（Albergotti，2023 年）。

(计算机辅助）兵棋推演。兵棋推演被用来 "让玩家重现特定事件，更重要的是，如果玩家决定以不同的方式行事，还能探索可能发生的事情"（Dunnigan，2000 年）。兵棋推演游戏的组成部分包括 "一张地图、代表历史人物或军事单元的棋子，以及一套告诉你可以或不可以用它们做什么的规则"（Dunnigan，2000 年）。计算机辅助兵棋推演的范围可以从决策支持系统到综合兵棋模拟。之前的研究表明，计算机自动化程度高的兵棋推演更容易导致核使用（Emery, 2021）；作者的一个假设是，计算机模型没有充分考虑到战争或核使用的非物质成本（Emery, 2021），"兵棋推演中的移情能力来自于让人感受到决策的分量，并在高度逼真而非抽象的模拟环境中行使道德实践判断"。(Emery, 2021）。据称，这种道德理解的缺失增加了计算机辅助兵棋推演中事态升级的可能性。

LLM 智能体决策。最近，研究人员探索了基于强化学习和基于 LLM 方法相结合的决策智能体的使用，例如，在玩策略游戏《外交》（FAIR 等人，2022 年）时。不过，FAIR 等人（2022 年）所描述的核心规划能力来自于 "使用 RL 训练模型的规划算法"，而不仅仅是 LLM。与这项工作相比，我们在每个模拟步骤（包括行动规划）中都使用了现成的 LLM。Mukobi 等人（2023 年）在多智能体通用和环境中使用了现成的 LLM，与我们的方法最为接近，但他们侧重于在外交变体中对合作进行基准测试，而我们则侧重于在更现实的环境中对冲突进行评估。此外，Lorè 和 Heydari（2023 年）在博弈论框架下探索了 LLMs 的战略规划能力，而 Ye 等人（2023 年）则研究了 LLMs 作为自主决策者的潜力以及提高这些能力的方法。

冲突模型。Owsiak （2015）建立了一个预测冲突管理行为的模型，并强调了冲突管理相互依存理论的重要性。Marwala 和 Lagazio（2011 年）比较了预测军事化国家间争端的基于模型的方法。Gochman 和 Maoz（1984 年）对国家间冲突行为进行了实证描述，强调了持续模式和跨越地理边界的普遍性。

理论冲突和冲突升级评估框架。Kahn（1970 年）将冲突升级描述为在冒险和决心方面存在竞争的情况，并以害怕对方做出过激反应作为威慑。在后续著作中，Kahn（2010 年）描述了一个由越来越多的升级行动组成的升级阶梯。Patchen （1987）认为，随着参与者目标的扩大、期望的改变以及对使用武力的抑制作用的减弱，国际冲突就会升级。Brecher（1996 年）将升级定义为 "从萌芽到全面危机的变化；从非暴力到暴力的变化；以及从无暴力/低暴力到严重暴力的变化"。最后，Rubin 等人（1994 年）的理论贡献指出了冲突升级过程中发生的五种转变。

结论与政策建议

将 LLM 纳入外交政策决策需要十分谨慎。根据本文的分析，在军事和外交政策决策中部署 LLMs 显然充满了复杂性和风险，而这些复杂性和风险尚未得到充分理解。这些模型在模拟环境中表现出的升级行为的不可预测性突出表明，在将其纳入高风险的军事和外交政策行动时，需要采取非常谨慎的方法。

只能从模拟兵棋推演中进行有限的推断。如果使用兵棋推演或模拟来估计在这些高风险环境中部署 LLMs 的潜在结果，那么分析人员在从这些 LLM 执行的游戏中推断未来会发生什么时就应小心谨慎。具体来说，目前还不清楚 LLM 在更复杂的环境中会有怎样的表现，我们也没有办法在部署前对其行为进行安全、可靠的测试。

模型和设计选择至关重要。不同模型之间的差异以及即时灵敏度分析中的差异表明，关于 LLM 如何响应以及使用哪些数据来构建其知识的人为设计决策会对升级结果产生重大影响。

有必要开展更多研究。与早期使用的计算机自动化外交和战争相比，这些 LLM 似乎更智能、更细致，甚至可能更有同情心。然而，在模拟环境中观察到的这些模型的不可预测性要求我们在将其纳入高风险决策过程时采取谨慎和克制的方法，在对这些模型在单 LLM 和多 LLM 环境中的行为和保障措施进行进一步研究之前，应暂缓将其纳入决策过程。密切分析兵棋推演中人类玩家与 LLM 之间的差异，可以进一步帮助完善 LLM 决策，还可以确定如何利用这些作为检查人类偏见的一种方式。此外，建议对 LLM 决策模式进行重点调查。这包括在可能的升级行动之前暂停情景，并进行多次重演，以评估 LLM 是否始终选择升级或表现出不同的反应。此类研究将说明模型的行为概率谱，并有助于加深对 LLM 不可预测性的理解。

成为VIP会员查看完整内容