2022最新《兵棋推演在国际关系研究中的应用》中文全文版，麻省理工学院、布朗大学、斯坦福大学等联和发表

2022 年 4 月 30 日 专知

作者：

Erik Lin-Greenberg：麻省理工学院
Reid B.C. Pauly：布朗大学
Jacquelyn G. Schneider：斯坦福大学

摘要

政治科学家越来越多地将兵棋推演融入他们的研究。通过部署原创游戏或利用档案兵棋材料，研究人员可以研究难以观察证据的罕见事件或主题。然而，学者们对如何将这种新的方法论应用于政治科学研究几乎没有相关指导。本文评估了政治科学家如何将兵棋推演作为一种学术探究的方法，并着手建立国际关系中兵棋推演的研究议程。我们首先将兵棋推演与其他方法论区分开来，并强调它们的生态有效性。然后，我们绘制了研究人员如何构建和运行自己的游戏或从档案兵棋推演中提取理论开发和测试的图表。在此过程中，我们解释了研究人员在使用兵棋推演进行研究时如何解决招募、偏见、有效性和普遍性问题，并确定评估兵棋推演作为调查工具的潜在好处和缺陷的方法。我们认为，兵棋推演为政治科学家研究国际关系子领域内外的决策过程提供了独特的机会。

关键词

兵棋推演，博弈，方法论，档案，实验，网络，新兴技术，核扩散

图兵棋推演开发指导框架

1 背景

人类行为和决策是国际关系 (IR) 中最持久难题的核心。然而，有关决策的数据很难获得，特别是涉及罕见事件以及与安全和外交决策相关的精英决策者。近年来，兵棋推演作为一种产生和获得这些行为洞察力的方式重新燃起（Bartels，2020 年；Colbert 等人，2017 年；Dorn 等人，2020 年；Hirst，2020 年；Jensen 和 Valeriano , 2019 ; Pauly, 2018 ; Reddie 等人, 2018 ; Schneider, 2017）[1]。作为政策制定者的领地，国际关系学者开始利用历史兵棋推演中的档案数据，并运用自己的兵棋推演来测试决策和冲突动态的理论。总之，这个崭露头角的学术问题使用兵棋推演来探索支撑外交政策决策的机制和逻辑。

关于此问题快速增长的研究兴趣是三个因素的产物。首先，冷战时期国防兵棋推演的解密为学者们提供了新的和独特的档案材料，以更好地了解有关核使用和冲突升级等主题的历史决策。其次，在过去的二十年中，政治科学家越来越多地转向综合数据生成过程，例如调查和实验室实验（Hyde，2015 年）。这种行为转向强调了实验设计，政治科学家在他们自己的游戏中应用了这种设计。第三，政治科学家对理论背后的微观基础越来越感兴趣（Kertzer，2017）。通过阐明决策过程，兵棋推演为研究人员提供了一种新的方法论工具，用于探索和测试 IR 理论所依赖的机制，可能比其他研究方法提供更深入的见解。

兵棋推演可能为学者们提供了一种很有前途的工具，可以以创造性的方式回答问题，但在该领域采用兵棋推演方法或数据之前，我们需要更好地了解博弈对政治科学的承诺和陷阱。兵棋推演与其他研究方法有何不同？兵棋推演可以产生哪些类型的见解和数据，学者如何最好地利用它们进行研究？研究人员在设计自己的游戏时应该考虑什么？将兵棋推演作为 IR 研究的一种方法应该解决哪些方法问题？

本文绘制并评估了政治科学家如何将兵棋推演作为一种学术探究的方法，并着手制定 IR 兵棋推演的研究议程。我们探索研究人员现场兵棋推演的发展以及使用档案兵棋推演材料来产生对决策的见解。我们考虑了博弈对理论开发和测试的效用；检查偏见、有效性和普遍性问题；并描述博弈如何阐明支撑核心 IR 理论的微观基础。

文章分五个部分进行。首先，我们定义兵棋推演并确定不同的博弈类型。其次，我们回顾了一系列关于兵棋推演价值的主张，这些主张将其与其他政治科学研究方法区分开来。第三，我们讨论了研究人员如何以社会科学规则为指导，评估设计选择的成本和收益。第四，我们描述了档案中出现的历史兵棋推演材料，如何最好地使用这些文献证据，并确定历史兵棋推演可以教给我们哪些关于研究人员现场兵棋推演的最佳实践。最后，我们概述了兵棋推演研究议程，探索兵棋推演如何补充其他研究方法，为正在进行的辩论做出贡献，并提出具体问题，以帮助研究人员更好地理解可以从兵棋推演中得出的推论。

2 什么是兵棋推演？

兵棋推演的使用可以追溯到几千年前，古罗马、早期伊拉克和中国都有兵棋推演的证据（Caffrey，2019 年）。随着普鲁士开发的Kriegspiel棋盘游戏，兵棋推演在现代战争行为中发挥了核心作用，这是一种模拟战斗训练军官的棋盘游戏（Schuurman，2019年；Wilson，1968年）。一个世纪后，美国在第一次世界大战和第二次世界大战期间将兵棋推演用于军事规划，成为海军在太平洋地区取得成功的关键部分（Lillard，2016年）。在冷战期间，美军再次转向兵棋推演来了解核革命的影响（Pauly, 2018；Schelling, 1987）。柏林墙倒塌后，美国的国防兵棋推演仍在继续，旨在测试有关战争和援助采购决策的新想法（Krepinevich和Watts，2015年）。

尽管发展历史悠久，但并不清楚什么是“兵棋推演”（Sepinsky，2021年）。虽然兵棋推演是为了准备战斗而出现的，但它们的用途超出了对战争的研究。政府使用游戏来模拟自然灾害和评估经济合作（Abbasi等，2012；Smith和Bell，1992）；商业顾问使用兵棋推演来测试新的商业战略（Oriesek和Shwarz，2008年）；学者应用游戏来研究人类行为如何影响各种社会和政治现象（Banks等人，1968年；Camerer，2011 年；Fiorina 和 Plott，1978 年）。例如，Thomas Schelling 关于强制的工作在很大程度上受到他设计的国防部兵棋推演的启发（Schelling，1987 年），而 Schelling 的同时代人使用模拟来探索冲突和核使用（Bloomfield 和 Whaley，1965 年；Brody，1963 年；Hermann，1967年）。此后，学者们使用游戏中嵌入实验来测试对冲突引发的解释（Johnson等人，2006 年；McDermott 等人，2008 年）以及国内政治讨价还价（Hamman等人，2011 年；Huckfeldt等人，2014年）。最近，政治科学家使用兵棋推演来研究数据稀少的现象，例如新兴技术对IR的影响（Jensen and Banks, 2018; Jensen and Valeriano, 2019; Lin-Greenberg, 2020; Pauly, 2018; Reddie et al., 2018; Schneider, 2017; Schneider et al., 2021）。

虽然通常被称为“模拟”或“演习”，但兵棋推演不同于计算机模拟战斗、以实际军队为特色的实地演习或有组织的头脑风暴会议。此外，大多数传统兵棋推演也不是旨在研究因果关系的实验室实验。相反，兵棋推演是具有四个特征的交互式事件：人类玩家、沉浸在场景中、受规则约束以及受基于结果的结果驱动。

首先，兵棋推演涉及人类玩家。正如Perla (1990 : 164) 解释的那样，“兵棋推演是人类互动的练习。它的长处是探索人类决策的作用和潜在影响” 。这种人类特征使得兵棋推演成为因变量或假设因果机制与人类行为有关的研究的理想选择。事实上，博弈可以帮助阐明微观基础，或源自个体人类行为的较低层次的机制，它们是许多学术理论的基础（Kertzer，2017年）。兵棋推演的人为因素将它们与计算机模拟或计量经济学“博弈”区分开来，其中模型模拟假定人类行为。

其次，兵棋推演将人类参与者置于模拟现实世界决策的场景中（Pettyjohn，2019年）。现实的表示和环境的整合产生了兵棋推演场景的厚度，并将它们与越来越多地用于 IR 研究的实验室和调查实验区分开来。这些模拟的决策环境，类似于参与者经常体验的环境，可以诱导玩家的行为方式与他们在相似的现实世界环境中的行为密切相关[2]。兵棋推演设计师必须仔细平衡抽象，这使游戏更容易执行，现实主义是兵棋独有的，并可能最终增加游戏发现的稳健性。

第三，兵棋推演具有规定人类玩家如何与场景互动的规则。规则可能是严格的，其中玩家有一组有限的动作，或者允许自由博弈，玩家几乎没有限制。这些规则可以塑造玩家的行为和结果，最终影响观察者从博弈中得出的结论。因此，规则会产生复杂的设计权衡。例如，免费游戏会使复制变得困难，而僵化游戏更有可能不自然地限制结果。尽管规则是博弈与许多模拟、模型和实验共有的特征，但兵棋推演（尤其是具有多个动作、玩家或团队的兵棋推演）通常使用更复杂的规则来管理团队如何互动，同时允许更广泛的行为选择，因此，导致结果差异更大。

兵棋推演区别于大多数其他国际关系研究方法的第四个特征是其基于结果的产出的经验性质。正如巴特尔斯所说，兵棋推演必须让人类玩家“沉浸在基于一组隐含或明确规则的竞争环境中，应对其行为的潜在后果”（Bartels，2020）。这些后果，例如“输掉”一场兵棋推演或在前一轮做出的决定会影响下一轮，被认为会激励参与者更深入地考虑他们的决定。在更常见的研究方法中，例如调查实验，参与者通常不会面对真实或模拟的后果。兵棋推演，在他们最好的情况下，超越了玩家的“游戏”结果，以感受和内化他们行为后果。最后一个特征的成功与游戏设计师在前三个特征之间进行权衡有关，包括使用正确的玩家、创建适当的场景和建立有用的规则。

总之，兵棋推演是互动场景，让人类玩家沉浸其中，他们根据给定的规则做出决定，并对他们的选择的后果做出反应。这四个特征的变化导致了各种看起来截然不同的“兵棋推演”。例如，兵棋推演包括棋盘游戏、少数玩家参与的战术桌面演习，以及数百名参与者参与的政治军事游戏。它们可以面对面、虚拟或使用某种混合组合进行，并具有不同的规则（表1）。学者们需要了解这些博弈特征如何影响可以从博弈中得出的关于 IR 理论和决策的结论；我们将在后续部分中探讨。

表1 博弈的特征

3 为什么需要兵棋推演？

上面我们概述了兵棋推演是什么，但为什么研究人员会选择兵棋推演而不是其他方法或数据源？下面，我们确定了关于兵棋推演作为研究决策的研究工具有用性的四个命题：（1）兵棋推演比其他方法更能让研究对象身临其境，（2）经常玩兵棋推演的精英参与者使得比其他方法更接近实际决策者，（3）参与者之间的交互更好地代表了现实世界的决策，以及（4）兵棋推演向玩家展示了他们自己决策的后果。总之，这些命题表明，使用和分析兵棋推演的主要价值不是生成关于结果的新的或更好的数据，而是理解导致这些结果的行为和选择。兵棋推演不能预测冲突或危机中会发生什么，但它们可以告诉我们为什么以及如何发生一种结果或另一种结果。虽然在从业者社区中被广泛接受（Bartels, 2020; Oberholtzer et al., 2019; Perla, 1990; Perla and McGrady, 2011; Wong et al., 2019），但这些关于兵棋推演作为研究工具的价值的假设大多未经检验。我们在本节中列出它们，以开始概述关于兵棋推演与其他方法和档案数据源的独特作用的前瞻性研究议程。在结论中，我们评估了研究人员如何研究这些命题，并描述了学者可能使用兵棋推演解决的问题类型。

总体而言，这四个命题中的每一个都提高了兵棋推演作为一种研究方法的生态有效性。生态效度（心理学研究中的一个常见概念），关注测试条件下的行为反映现实世界行为的程度。换句话说，更生态有效的研究设计应该对实际行为提供更可靠的见解。为了获得高生态效度，心理学家关注三个关键维度。首先，测试环境应该包括在自然环境中发生的特征——例如时间限制和干扰——而不是表现出精简实验室设置的更加不切实际的性质。二、刺激——例如信息注入——在模拟环境中应该与现实世界的刺激相似。第三，参与者在测试中可以做出的行为反应和行为应该代表他们在现实世界中可以做出的行为。来自过于不切实际或涉及不自然刺激和行为反应的环境的测试信息可能会限制从研究中得出结论（Gouvier等，2014年）。

在兵棋推演中实现高生态有效性需要模拟条件，以反映真正的政策制定者在实际危机中必须应对的压力、激励和信息环境的类型。然后，这些条件允许参与者提出类似于他们在现实世界中提出的解决方案。如果兵棋推演具有较高的生态效度，学者们应该能够利用兵棋推演真实地模拟和研究外交政策决策过程。事实上，生态有效性使其他领域的专业人士能够将博弈和模拟用于培训目的。例如，使用准确的现实世界参数进行编程的飞行模拟器具有很高的生态有效性，并且是一种更便宜、更容易、更安全的方式来训练飞行员并了解他们的决策[3]。虽然跨学科的文献继续对其定义进行辩论（Baumeister 和 Vohs，2007；Brunswik，1947：276；Schmuckler，2001），但我们认为生态效度是外部效度的关键要素——研究结果在研究背景之外的普遍性（Findley等人，2020年）[4]。

3.1 命题 1：兵棋推演比其他方法更具沉浸感，因此在生态上更有效

作为兵棋推演专家Perla 和 McGrady (2011: 113) 断言：兵棋推演“吸引玩家参与并构建他们的故事；他们确实将玩家置于故事之中。” 这是兵棋推演优于其他不复制真实世界决策环境的方法的论据。就生态效度的维度而言，沉浸式旨在提供一个有效刺激的有效测试环境。理想情况下，玩家沉浸在其中，以至于他们暂时忘记或忽略了他们正在被研究的事实，而是关心他们在兵棋推演中的进展。因此，兵棋推演寻求创造沉浸式环境，在这种环境中，参与者不扮演游戏玩家的角色，而是内化他们过去和未来对类似现实生活场景的反应。从历史上看，兵棋推演反映了政府参与者的真实经历。在古巴导弹危机期间，一位曾参与过托马斯·谢林兵棋推演的国防官员表示，“这场危机确实证明了Schelling的兵棋推演是多么逼真”，一位同事对此回应说，“不”，兵棋推演“证明了这场古巴危机是多么不切实际”（Schelling and Ferguson, 1988: 10）。

当然，兵棋推演可能会被剥夺细节并失去其身临其境的品质，但随后该活动是否仍可被视为兵棋推演就成了问题。例如，调查实验优先考虑内部有效性和控制，但往往缺乏这种沉浸式互动或实际决策设置的应激源（Barabas和Jerit，2010 年）。相比之下，通常持续数小时或数天并具有大量细节的博弈，可以通过提供逼真的场景、创造参与者可以与另一个团队赢或输的条件以及允许参与者之间的扩展互动来引起参与者的支持。投入时间和精力参与其中的玩家，可能会比不那么投入的研究对象更好地理解场景并更关心其结果。因此，他们可能会更周到地对给定的场景做出反应。此外，兵棋推演通常要求玩家在信息过多（或过少）、时间限制和情感负担的情况下做出决策，从而产生了 McDermott (2002) 所说的“实验现实主义”。事实上，学者们发现“综合体验”向研究对象展示身临其境的小说或视频，会触发类似于现实世界决策的认知过程（Daniel 和 Musgrave，2017；Miller，2020）。最后，兵棋推演超越了许多调查实验，要求参与者扮演决策者的角色并回答我会做什么，而不是我会支持其他人做什么？[5]

3.2 命题 2：更具代表性的样本使兵棋推演更具生态有效性

兵棋推演可能比其他研究方法提供更多的见解，仅仅是因为它们传统上招募了包括决策者和军官在内的专家参与者。学者们通常认为，当研究样本反映感兴趣的人群时，研究提供了最有用的见解（Dietrich 等人，2021；Hyde，2015；McDermott，2002）。然而，国际关系学者越来越多地转向更大的在线和学生便利样本进行实证研究。虽然这种方法允许进行可重复的统计分析，从而克服因果推理的基本问题并能够研究公众偏好，但如果受试者不能代表实际的政策制定者，便利样本可能会产生对政府决策的有限见解（Dietrich 等人，2021 年）；Oberholtzer 等人，2019 年）。

相比之下，精英兵棋推演的特点通常与便利样本相反——参与者被故意招募是因为他们的实质性知识或他们在现实世界决策中的经验。这种招募策略可以产生高度真实的样本。然而，即使是这些现实的样本也可能包括显着影响决策的经验和世界观的变化。例如，奥巴马政府的国家安全专家在做决定时会考虑与特朗普政府的国家安全专家相同的因素吗？因此，这些精英研究对象的代表性可能会提高兵棋推演的生态有效性，但是——如果只招募有限数量的参与者来玩少量的兵棋——研究人员仍然需要清楚地解释从研究结果中得出的推论的局限性。

即使精英参与者的数量很少并且有针对性的招募，精英兵棋推演参与者的独特性仍然可以提供重要的分析见解。例如，参与者在游戏中的审议可能会揭示精英在做决定时强调或不强调的因素。例如，规范或道德对于冲突决策有多重要？参与者将哪些国际政治信念带入决策？他们在做决定时是否讨论过心智模型、历史类比或其他启发式方法？由于精英参与者在玩研究人员和政府赞助的游戏时可以利用他们的实质性知识和专业知识，因此这些游戏的见解对于 IR 理论测试可能比非专家玩的游戏更有用。

3.3 命题 3：兵棋推演中的群体互动比收集个人偏好的实验或调查更能代表现实世界的决策

大多数兵棋推演和其他合成数据生成过程之间的一个显着区别是群体在决策中的作用。兵棋推演本质上是多玩家的努力，而大多数调查实验和许多实验室实验都收集个体参与者的反应。最终在兵棋推演期间形成决策的团队内部和团队之间的玩家互动非常重要，因为现实世界的外交政策决策很少由一个人做出（Kerr 和 Tindale，2004 年；Mintz 和 Wayne，2016 年；Saunders，2017 年）。大多数兵棋推演中的组级交互提供了一个独特的机会来研究决策如何展开，并通过比其他研究方法更好地模拟实际决策过程和行为反应来潜在地提高生态有效性。情绪、狂妄自大、沟通不畅、地位、声誉、多样性、性别、经验和鹰派等因素会影响兵棋推演期间的团队动态和决策，让研究人员有机会探索这些重要（但难以收集）的变量如何影响外围策略 ( Wang et al., 2020）。兵棋推演讨论还可以揭示团队如何根据团队成员的性格或特征进行自我排序以及分配或推迟决策责任。事实上，一位在 1960 年兵棋推演中的精明报告员指出，政策重量级人物沃尔特·罗斯托（Walt Rostow）在美国队“做了大约 75% 的谈话”（(Bloomfield，1960 年）。相比之下，调查和许多实验往往忽视群体动态，并通过衡量个人层面的偏好来概括外交政策决策。

3.4 命题 4：兵棋推演向玩家展示后果，创建关于结果和决策的更生态有效的数据

博弈可能更有可能反映现实世界的决策，因为它们要求玩家做出响应或导致基于结果的输出的选择[6]。兵棋推演的这种体验品质，要求玩家在模拟挑战之后调整策略，超越了对迭代后果或未来阴影的担忧。反对派将政治-军事信号作为“感受对方可能接受或拒绝的过程”（Schelling 和Ferguson, 1988: 1）所做的远不止决定如何在实验室中分配一美元。事实上，这些决策逻辑可能类似于 Hayward Alker 所描述的参与囚徒困境游戏的玩家的“内心独白”，揭示了人类如何解释自己和他人的行为（Alker，1985 年）。

首先，兵棋推演通常允许玩家“赢”或“输”，至少相对于其他参与者而言。正如一位兵棋推演实践者所说，“兵棋推演是一种人类活动。当人们在游戏中输球时，他们会感到失落。当他们获胜时，他们会很兴奋”（McGrady，2019）。在这里，结果的引入再次以可以塑造行为反应的方式提供了一个更生态有效的测试环境。其次，这个命题断言，这种失落或兴奋感的强度随着研究对象在他们的策略上投入的努力而增加。将一群人长时间放在一起可以通过将玩家更多地投入到游戏中来增加这些后果的显着性，而不是通过在线、电话或邮件进行的调查实验。因此，游戏允许研究人员检查参与者为获胜而采取的权衡、选择和风险。

这四个命题表明，兵棋推演为研究人员提供了在现实世界数据有限的情况下进行决策的宝贵见解。至关重要的是，兵棋推演的价值不在于确定结果，而在于阐明决策者如何得出这些结果。尽管兵棋推演本质上是对现实的模拟，但我们相信其身临其境的性质、群体互动、后果以及精英样本的使用比其他研究方法更准确地模拟了现实世界的决策环境，从而提高了研究结果相对于其他方法的生态有效性。任何单独的游戏设计都可能会强调某些主张而削弱其他主张——例如，片面的博弈可能会牺牲一些竞争精神，同时赋予群体互动特权——但兵棋推演保留了每个命题的一些价值。在接下来的部分中，我们将绘制出学者如何使用原始兵棋推演和使用档案兵棋推演数据进行研究，并确定在设计游戏和分析游戏数据时如何驾驭这四个命题。

完整版请上专知查看！

https://www.zhuanzhi.ai/vip/0ccfc7735957d989dabf29d78bc4cac9

专知便捷查看

便捷下载，请关注专知人工智能公众号（点击上方蓝色专知关注）

后台回复“WIRR” 就可以获取 2022最新《兵棋推演在国际关系研究中的应用》中文全文版，麻省理工学院、布朗大学、斯坦福大学等联和发表 专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资料

登录查看更多

相关内容

关注 14

信息检索杂志（IR）为信息检索的广泛领域中的理论、算法分析和实验的发布提供了一个国际论坛。感兴趣的主题包括对应用程序（例如Web，社交和流媒体，推荐系统和文本档案）的搜索、索引、分析和评估。这包括对搜索中人为因素的研究、桥接人工智能和信息检索以及特定领域的搜索应用程序。官网地址：https://dblp.uni-trier.de/db/journals/ir/

【AI+军事】附论文《混合决策的证据跟踪》美国海军信息战中心

专知会员服务

67+阅读 · 2022年4月28日