陆战对抗中的智能体博弈策略生成方法 - 专知VIP

会员服务 ·

62

博弈策略 · 陆战对抗 · AI与军事 ·

2023 年 5 月 7 日

陆战对抗中的智能体博弈策略生成方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

针对陆战对抗中智能体状态动作空间复杂和行为模式固定的问题, 提出任务分层架构下的博弈策略生成方法. 使用策略式博弈模型对陆战对抗问题进行分析建模, 给出智能体任务执行中的收益矩阵构建方法, 并通过求解混合策略, 使智能体行为同时具有合理性和多样性. 以陆军战术对抗兵棋推演为平台进行测试, 实验证明智能体策略可解释性强, 行为模式多样, 在与 AI 和人类选手对抗时都具有较高的胜率. 智能体是人工智能的一个基本术语, 广义的智能体包括人类、机器人、软件程序等[1] . 狭义的智能体是能感知环境, 根据环境变化作出合理判断和行动, 从而实现某些目标的计算机程序. 从感知序列集合到执行动作集合的映射也称为智能体的策略[2] . 智能体策略的研究对实现无人系统自主能力[3]和人机混合智能[4]具有重要意义. 决策指根据一定目标选择备选方案或动作的过程. 传统使用脚本规则[5]、有限状态机[6]、行为树[7]等方法进行智能体决策行为建模, 决策模型对应了智能体的策略. 这类智能体的策略具有较强的可解释性, 但是其需要大量的领域专家知识. 另一方面上述智能体通常使用基于专家知识的纯策略, 其行为模式是固定的, 在复杂对抗场景中存在适应性不强和灵活度不够的问题. 近年, 深度强化学习成为智能体策略生成的重要方法, 在 Atari 游戏[8]、围棋[9-11]、德州扑克[12]、无人驾驶[13]等领域取得了突破进展, 部分场景中已经达到或超越了人类专家水平. 然而基于强化学习的智能体在更为复杂的场景中面临着感知状态空间巨大、奖励稀疏、长程决策动作组合空间爆炸等难题[14] . 战争对抗作为一种复杂对抗场景, 一直是智能体策略生成研究的重点, 并越来越受到关注[15-17] , 但当前研究还缺少实质性的进展, 特别是在人机对抗中[18] , 人类对手策略变化造成的环境非静态性会使智能体显得呆板、缺少应变能力. 针对陆军战术级对抗场景中智能体状态动作空间复杂和行为模式固定的问题, 以中科院“庙算·智胜即时策略人机对抗平台”陆军战术对抗兵棋（以下简称“庙算”陆战对抗兵棋）为实验平台, 提出了基于博弈混合策略的智能体对抗策略生成方法. 本文工作主要有 3 个方面： 1）对陆战对抗中实体动作进行抽象、分层, 建立智能体任务分层框架, 降低问题求解的复杂度. 2）对陆战对抗实体任务中关键要素进行分析, 构建对抗问题博弈模型, 并给出收益矩阵的计算方法. 3）给出陆战对抗兵棋推演场景中智能体混合策略均衡的求解方法, 对本文所提方法的可行性进行了验证.

成为VIP会员查看完整内容

相关内容

博弈策略

有人/ 无人集群任务规划系统集成框架

有人/ 无人集群任务规划系统集成框架

专知会员服务

174+阅读 · 2023年6月14日

知识与数据互补的战术级兵棋行为决策框架设计与实现

知识与数据互补的战术级兵棋行为决策框架设计与实现

专知会员服务

105+阅读 · 2023年5月30日

基于内在动机的深度强化学习探索方法综述

基于内在动机的深度强化学习探索方法综述

专知会员服务

40+阅读 · 2023年5月13日

战术先验知识启发的多智能体双层强化学习

战术先验知识启发的多智能体双层强化学习

专知会员服务

113+阅读 · 2023年5月9日

基于多智能体深度强化学习的体系任务分配方法

基于多智能体深度强化学习的体系任务分配方法

专知会员服务

155+阅读 · 2023年5月4日

基于深度强化学习的对手建模方法研究综述

基于深度强化学习的对手建模方法研究综述

专知会员服务

83+阅读 · 2023年4月17日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知会员服务

161+阅读 · 2022年9月28日

《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文

《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文

专知会员服务

41+阅读 · 2022年9月27日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知会员服务

226+阅读 · 2022年7月5日

兵棋推演的智能决策技术与挑战（自动化学报）

兵棋推演的智能决策技术与挑战（自动化学报）

专知会员服务

91+阅读 · 2022年4月24日

「基于课程学习的深度强化学习」研究综述

「基于课程学习的深度强化学习」研究综述

专知

9+阅读 · 2022年11月28日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

17+阅读 · 2022年9月28日

《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文

《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文

专知

7+阅读 · 2022年9月28日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

「人机对抗中的博弈学习方法」最新2022综述

「人机对抗中的博弈学习方法」最新2022综述

专知

7+阅读 · 2022年9月11日

强化学习先驱Richard Sutton：将开发新型计算智能体

强化学习先驱Richard Sutton：将开发新型计算智能体

机器之心

0+阅读 · 2022年8月26日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知

3+阅读 · 2022年7月16日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

27+阅读 · 2022年7月5日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

37+阅读 · 2020年3月15日

17种深度强化学习算法用Pytorch实现

17种深度强化学习算法用Pytorch实现

新智元

31+阅读 · 2019年9月16日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

基于动态合作博弈模型的协同驾驶行为建模和碰撞预测研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多方论据博弈的决策知识萃取与联合学习方法研究

国家自然科学基金

5+阅读 · 2012年12月31日

基于交互式动态影响图的未知对手模型学习

国家自然科学基金

3+阅读 · 2012年12月31日

面向任务的网络公用品博弈群体协调和合作机制研究

国家自然科学基金

2+阅读 · 2012年12月31日

针对环境变量不确定性的进化鲁棒优化算法

国家自然科学基金

0+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

17+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning

Arxiv

0+阅读 · 2023年6月20日

Vanishing Bias Heuristic-guided Reinforcement Learning Algorithm

Arxiv

0+阅读 · 2023年6月17日

Creating Multi-Level Skill Hierarchies in Reinforcement Learning

Arxiv

0+阅读 · 2023年6月16日

Semi-Offline Reinforcement Learning for Optimized Text Generation

Arxiv

0+阅读 · 2023年6月16日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

45+阅读 · 2022年8月2日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

Coding for Distributed Multi-Agent Reinforcement Learning

Arxiv

32+阅读 · 2021年1月7日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

相关VIP内容

有人/ 无人集群任务规划系统集成框架

有人/ 无人集群任务规划系统集成框架

专知会员服务

174+阅读 · 2023年6月14日

知识与数据互补的战术级兵棋行为决策框架设计与实现

知识与数据互补的战术级兵棋行为决策框架设计与实现

专知会员服务

105+阅读 · 2023年5月30日

基于内在动机的深度强化学习探索方法综述

基于内在动机的深度强化学习探索方法综述

专知会员服务

40+阅读 · 2023年5月13日

战术先验知识启发的多智能体双层强化学习

战术先验知识启发的多智能体双层强化学习

专知会员服务

113+阅读 · 2023年5月9日

基于多智能体深度强化学习的体系任务分配方法

基于多智能体深度强化学习的体系任务分配方法

专知会员服务

155+阅读 · 2023年5月4日

基于深度强化学习的对手建模方法研究综述

基于深度强化学习的对手建模方法研究综述

专知会员服务

83+阅读 · 2023年4月17日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知会员服务

161+阅读 · 2022年9月28日

《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文

《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文

专知会员服务

41+阅读 · 2022年9月27日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知会员服务

226+阅读 · 2022年7月5日

兵棋推演的智能决策技术与挑战（自动化学报）

兵棋推演的智能决策技术与挑战（自动化学报）

专知会员服务

91+阅读 · 2022年4月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【NTU博士论文】利用强化学习与生成模型推进可靠且可泛化的决策

美海军研发“增强侦察与态势评估系统（ARES）”应用程序以优化作战规划（附研究论文）

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

面向深度研究系统的强化学习基础：综述

相关资讯

「基于课程学习的深度强化学习」研究综述

「基于课程学习的深度强化学习」研究综述

专知

9+阅读 · 2022年11月28日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

17+阅读 · 2022年9月28日

《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文

《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文

专知

7+阅读 · 2022年9月28日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

「人机对抗中的博弈学习方法」最新2022综述

「人机对抗中的博弈学习方法」最新2022综述

专知

7+阅读 · 2022年9月11日

强化学习先驱Richard Sutton：将开发新型计算智能体

强化学习先驱Richard Sutton：将开发新型计算智能体

机器之心

0+阅读 · 2022年8月26日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知

3+阅读 · 2022年7月16日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

27+阅读 · 2022年7月5日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

37+阅读 · 2020年3月15日

17种深度强化学习算法用Pytorch实现

17种深度强化学习算法用Pytorch实现

新智元

31+阅读 · 2019年9月16日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

基于动态合作博弈模型的协同驾驶行为建模和碰撞预测研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多方论据博弈的决策知识萃取与联合学习方法研究

国家自然科学基金

5+阅读 · 2012年12月31日

基于交互式动态影响图的未知对手模型学习

国家自然科学基金

3+阅读 · 2012年12月31日

面向任务的网络公用品博弈群体协调和合作机制研究

国家自然科学基金

2+阅读 · 2012年12月31日

针对环境变量不确定性的进化鲁棒优化算法

国家自然科学基金

0+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

17+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning

Arxiv

0+阅读 · 2023年6月20日

Vanishing Bias Heuristic-guided Reinforcement Learning Algorithm

Arxiv

0+阅读 · 2023年6月17日

Creating Multi-Level Skill Hierarchies in Reinforcement Learning

Arxiv

0+阅读 · 2023年6月16日

Semi-Offline Reinforcement Learning for Optimized Text Generation

Arxiv

0+阅读 · 2023年6月16日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

45+阅读 · 2022年8月2日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

Coding for Distributed Multi-Agent Reinforcement Learning

Arxiv

32+阅读 · 2021年1月7日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员