《多利益相关者、多目标和不确定环境中的利益相关者系统簇规划》410页

美国国防部（DOD）的规划规划目前致力于将国家战略目标转化为兵力结构。用于采购的联合能力集成与开发系统（JCIDS）需求生成过程是兵力结构的主要驱动因素，其核心是减少组织间的冗余、实现基于能力的采购，以及在联合层面评估需求和解决方案。JCIDS 流程是提高组织层级的一个范例，在此层级上决定需求和由此产生的资源请求。当前的采购环境带来了新的财政和政治限制（如预算削减、持续决议），而任务要求却随着行动需求的增加而提高。资源和需求的不确定性是由预算波动和不断变化的业务需求驱动的。技术更新、资产资本化和资产重新分配之间的权衡已成为采购决策过程中的主要驱动因素，以平衡制约因素、需求和不确定性。我们需要新的方法来确保国防部的各利益相关方能够最大限度地成功完成任务，同时在当前的限制条件下应对不确定性，而不需要另一个层面的综合协调。针对其他利益相关方的决策和未来的不确定性，制定技术投资、系统开发和系统分配战略 "剧本 "的新方法将有助于各利益相关方更好地分配资源。军事力量结构可定义为一个公认的系统簇（SoS）。目前已有大量工作涉及 SoS 工程流程、SoS 性能评估和 SoS 系统评估。然而，很少有方法能在协助国防利益相关者进行战略规划所需的层面上全面解决 SoS 规划和演化问题。当前的方法无法解决多个利益相关者决策的影响、每个利益相关者的多重目标、决策结果的不确定性以及战略决策的时间因素。

作者在回顾当前最新技术并综合其他领域现有方法的基础上，开发了一种三步方法来解决上述不足，从而为单个利益相关者制作游戏手册提供参考。

这项工作假定了一个被视为真相模型的博弈框架，它代表了利益相关者的决策以及随着时间推移而产生的结果。第一步是从复杂的博弈框架中创建一个计算上合理的元模型。使用蒙特卡洛技术对真相模型进行采样，生成 s、a、r、s 样本图元。这些图元用于训练元模型 MDP。元模型会产生一个较低维度的状态空间，该空间由元模型状态、基于特定行动的转换概率和随机利益相关者奖励组成。

第二步是利用现在可计算管理的决策空间，提取利益相关者的有用信息。MDP 元模型用于评估基于风险的策略、状态重要性和行动重要性。在均值-方差组合理论的基础上，开发了一种适用于利益相关者效用的新算法，并与强化学习（RL）策略迭代法相结合，利用 MDP 元模型构建基于风险的策略。在每个状态前后都会对利益相关者指标进行熵测量，以衡量状态的重要性。通过比较平均结果和结果方差，来衡量每个元模型状态-行动对的给定行动的单个利益相关者指标之间的机会成本。

最后一步是生成信息，为利益相关者的具体行动手册提供信息。基于风险的策略可用于在每个状态下开发风险容忍度敏感性配置文件（RTSP）。状态 RTSP 可以确定与风险和回报相关的帕累托效率行动和低效行动。状态 RTSP 还能识别最差、低风险和高风险行动。此外，还可以对决策空间进行分析，以确定类似 RTSP 之间的一致趋势，以及作为状态值函数的 RTSP 分叉。使用熵和机会成本指标可识别重要的状态和行动。

该方法的输出结果是推导出的基于行动和状态的风险信息，并提供给利益相关者，以支持制定基于风险的行动手册。

制定该方法的部分目的是为了测试现有和新颖结构的适用性。在审查现有方法、综合新方法和制定总体方法的过程中，提出了三个假设。假设 1 认为，使用基于风险的新型策略算法，可以确定帕累托效率行动。假设 2 断言，可以应用状态空间缩减技术来创建缩减的 MDP 元模型，以减少计算时间，同时保持可用的基于风险的策略输出。假设 3 断言，基于风险的策略度量可用于获得超越当前最先进的信息，即最优策略方法所代表的信息。

实验 1 使用一组日益复杂的 MDP 检验了假设 1，并证明了基于风险的策略算法识别帕累托有效和无效行动的能力。实验 2 通过改变状态压缩率来检验假设 2，结果表明计算时间缩短，基于风险的策略也更加相似。实验 3 利用不太复杂的情景和单一的完全复杂情景对假设 3 进行了检验。演示了该方法的全部能力，并与最优策略方法进行了比较。与最优政策方法的结果相比，这套方法所提供的信息更加细致入微。

对每个假设的成功评估表明，该方法可为军事防御规划人员（单一 SoS 利益相关者）提供信息，以制定基于风险的行动手册，从而在具有多个合作和非合作利益相关者、预算限制和不断扩大的作战需求的不确定环境中协助长期决策。这将允许在利益相关者层面进行稳健的规划，而无需额外的合并和审查。