近年来, 以人机对抗为途径的智能决策技术取得了飞速发展, 人工智能技术AlphaGo、AlphaStar等分别在围棋、星际争霸等游戏环境中战胜了顶尖人类选手. 兵棋推演, 作为一种人机对抗策略验证环境, 由于其非对称环境决策、更接近真实环境的随机性与高风险决策等特点受到智能决策技术研究者的广泛关注. 本文将梳理兵棋推演与目前主流人机对抗环境如围棋、德扑、星际争霸等对抗环境的区别, 阐述兵棋推演智能决策技术的发展现状, 并分析当前主流技术的局限与瓶颈, 对兵棋推演中的智能决策技术研究进行了思考, 期望能对兵棋推演相关研究人员的智能决策技术研究带来启发.

尹奇跃, 赵美静, 倪晚成, 张俊格, 黄凯奇, 兵棋推演的智能决策技术与挑战. 自动化学报, 2022, 48(x): xx-xx http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210547

人机对抗, 作为人工智能技术的试金石, 近年 来获得了举世瞩目的进展. 随着 Deep Blue[1]、AlphaGo[2]、Libratus[3]、AlphaStar[4] 等智能体分别在 国际象棋、围棋、二人无限注德州扑克以及星际争 霸中战胜顶尖职业人类选手, 其背后的智能决策技 术获得了广泛的关注, 也代表了智能决策技术在中 等复杂度完美信息博弈、高复杂度完美信息博弈再 到高复杂度不完美信息博弈中的技术突破.

国际象棋、围棋代表了完美信息博弈, 其状态空间复杂度由

, 后者更是被誉为人 工智能技术的阿波罗. 相比于上述两种博弈环境, 二人无限注德州扑克, 尽管状态空间复杂度仅有 , 但其为不完美信息博弈, 相比于国际象棋与 围棋信息集大小仅为 1, 其信息集平均大小达到 . 而星际争霸, 作为高复杂度不完美信息博弈的代 表, 因其相比于上述游戏的即时制、长时决策等特 性[4, 5] , 对智能决策技术提出了更高的要求. 星际争霸突破之后, 研究人员迫切需要新的人 机对抗环境实现智能技术的前沿探索. 兵棋推演是 一款经典策略游戏[6−8] , 也被称为战争游戏, 作为一 种人机对抗策略验证环境, 由于其具有不对称环境 决策、更接近真实环境的随机性与高风险决策等特 点, 受到智能决策技术研究者的广泛关注. 近些年 来, 研究者投入了大量的精力进行兵棋推演智能体 研发以及兵棋推演子问题求解, 试图解决兵棋推演 的人机对抗挑战[9−14] .

兵棋推演, 一直以来都是战争研究和训练的手段, 分为早期的手工兵棋与 20 世纪 80 年代后期普 及的计算机兵棋[15−17] . 胡晓峰等人[6] 全面综述了兵 棋推演的基本要素 (参演人员、兵棋系统模拟的战 场环境和作战部队、导演部及导调机构), 指出 “兵 棋推演的难点在于模拟人的智能行为”, 进而得出 “兵 棋推演需要突破作战态势智能认知瓶颈”, 最后给 出了如何实现态势理解与自主决策可能的路径. 和 目前兵棋推演关注的重点不同, 本文关注的是兵棋 推演中的智能体研究, 针对通用性的智能决策技术 与挑战展开. 另外, 需要阐明的是, 本文中的兵棋推 演, 如非特别阐述, 在不引起歧义的前提下统一指 双方计算机兵棋推演 (红蓝两方). 本文内容组织如下: 第二章将梳理兵棋推演与 目前主流人机对抗环境如星际争霸等的区别, 以及 为什么其潜在是人机对抗的下一个挑战; 第三章将 介绍兵棋推演智能技术的研究现状; 之后在第四章 阐述当前主流技术的瓶颈; 第五章对兵棋推演的智 能决策技术进行展望与思考, 希望启发新的研究方 向; 最后对全文进行总结.

**1 兵棋智能决策问题的挑战 **

本章首先简要介绍兵棋推演问题以及与手工兵 棋的比较. 在此基础上, 以人机对抗发展脉络为主 线, 以兵棋推演中的智能体研究为核心, 介绍兵棋 推演与其他主流策略游戏的通用挑战, 之后重点阐 述兵棋推演的独特挑战. 前者为实现兵棋推演人机 对抗的成功提供了技术基础, 后者则对当下人机对 抗智能体决策技术提出了新的挑战.

表1 对智能决策技术带来挑战的代表性因素

2 兵棋智能决策技术研究现状

为应对兵棋推演的挑战性问题, 研究者提出了 多种智能体研发与评测方法. 与围棋、星际争霸等 主流游戏人机对抗智能体研发脉络类似 (如星际争 霸从早期知识规则为主, 中期以数据学习为主, 后 期以联合知识与强化学习完成突破), 兵棋推演也经 历了以知识驱动为主、以数据驱动为主以及以知识 与数据混合驱动的研发历程. 兵棋的评测技术包含 了智能体的定量与定性分析方法. 在本节中, 将重 点阐述兵棋智能体研发的技术与框架, 同时对智能 体的评估评测进行简述.

当前智能体的研发技术与框架主要包含三类, 即知识驱动、数据驱动以及知识与数据混合驱动的 兵棋推演智能体, 本节将分别阐述各个技术框架的 研究进展.

3. 兵棋推演智能体评估

正确评估智能体的策略对于智能体的能力迭代具有至关重要的作用。研究者提出了一系列算法(如ELO、多维ELO等)实现智能体能力的准确刻画,但仍面临复杂非传递性策略的综合评估、协同智能体中单个智能体的能力评估、定性评估标准体系化等问题带来的挑战。近些年来,上述挑战促进了智能体评估开放平台的建设,例如,中科院自动化所开放了“图灵网”人机对抗智能门户网站(http://turingai.ia.ac.cn/),支持智能体机机对抗、人机对抗、人机混合对抗下多种指标评估评测(如图4)。

4. 兵棋智能决策技术展望

博弈理论,作为研究多个利己个体之间的策略性交互而发展的数学理论,有望为兵棋推演人机对抗突破提供理论支撑,但是面临着如何求解以及保证大规模博弈的近似纳什均衡解的挑战。大模型,近些年来在自然语言处理领域获得了突飞猛进的发展,兵棋推演的大模型训练有望实现类似的零样本或小样本迁移,但是面临着如何进行优化目标设计、多智能体训练以及不同规模任务训练的挑战。问题约简,作为一种引导技术发展的有效手段,本文设计了“排兵布阵”、“算子异步协同对抗”等问题,以牵引算法研究,进而反哺解决兵棋推演人机对抗挑战。

成为VIP会员查看完整内容
195

相关内容

兵棋推演 (Military Simulation)为一种室内军事演习方式,也称指挥所演习 (Command Post Exercise, CPX)或桌上演习 (Table Top Exercise, TTX)。用于军校教育和实际的军事行动之中,以预先推估战争局势的发展为其目的。
智能博弈对抗方法:博弈论与强化学习综合视角对比分析
专知会员服务
173+阅读 · 2022年8月28日
结合进化算法的深度强化学习方法研究综述
专知会员服务
76+阅读 · 2022年7月16日
兵棋推演的智能决策技术与挑战(自动化学报)
专知会员服务
80+阅读 · 2022年4月24日
强化学习可解释性基础问题探索和方法综述
专知会员服务
85+阅读 · 2022年1月16日
专知会员服务
101+阅读 · 2021年1月1日
AlphaZero原理与启示
专知会员服务
30+阅读 · 2020年8月23日
人机对抗智能技术
专知会员服务
189+阅读 · 2020年5月3日
「强化学习可解释性」最新2022综述
专知
8+阅读 · 2022年1月16日
AI打王者、星际争霸……你还不懂背后技术?这有一份游戏AI综述
中国科学院自动化研究所
1+阅读 · 2021年12月2日
更深探索,更优体验!人机对抗智能门户网站上线多项新功能、新版块
中国科学院自动化研究所
0+阅读 · 2021年10月29日
2021届“庙算杯”人机对抗测试赛成功举行!
中国科学院自动化研究所
2+阅读 · 2021年8月9日
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年8月25日
Arxiv
0+阅读 · 2022年8月23日
Arxiv
24+阅读 · 2021年6月25日
VIP会员
相关VIP内容
智能博弈对抗方法:博弈论与强化学习综合视角对比分析
专知会员服务
173+阅读 · 2022年8月28日
结合进化算法的深度强化学习方法研究综述
专知会员服务
76+阅读 · 2022年7月16日
兵棋推演的智能决策技术与挑战(自动化学报)
专知会员服务
80+阅读 · 2022年4月24日
强化学习可解释性基础问题探索和方法综述
专知会员服务
85+阅读 · 2022年1月16日
专知会员服务
101+阅读 · 2021年1月1日
AlphaZero原理与启示
专知会员服务
30+阅读 · 2020年8月23日
人机对抗智能技术
专知会员服务
189+阅读 · 2020年5月3日
相关资讯
「强化学习可解释性」最新2022综述
专知
8+阅读 · 2022年1月16日
AI打王者、星际争霸……你还不懂背后技术?这有一份游戏AI综述
中国科学院自动化研究所
1+阅读 · 2021年12月2日
更深探索,更优体验!人机对抗智能门户网站上线多项新功能、新版块
中国科学院自动化研究所
0+阅读 · 2021年10月29日
2021届“庙算杯”人机对抗测试赛成功举行!
中国科学院自动化研究所
2+阅读 · 2021年8月9日
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员