战场攻击目标的选择是最关键的决策之一。该决策问题被表述为武器目标分配(WTA)问题。既往研究中,动态规划、线性规划、元启发式及启发式方法均被用于求解此问题。然而,先前研究存在模型过度简化、计算负担过重、对突发事件适应性不足以及问题规模变化需重新计算等局限。为突破这些限制,本研究旨在运用强化学习与图神经网络解决WTA问题。所提方法通过映射真实决策框架"OODA循环"(观察-调整-决策-行动)实现高度实用性。在多环境实验中,通过与现有启发式及元启发式方法对比验证了该方法的有效性。该研究为传统上仅限人类专家的战术指挥控制领域引入突破性的智能决策方法论。
图1:兵棋模拟中随机性的概念图