近年来,基于深度强化学习的机器学习技术突破性进展为智能博弈对抗提供了新的技术发展方向。针对智能对抗中异构多智能体强化学习算法训练收敛速度慢,训练效果差异大等问题,提出了一种先验知识驱动的多智能体强化学习博弈对抗算法PK-MADDPG,构建了双重Critic框架下的MADDPG模型。该模型使用了经验优先回放技术来优化先验知识提取,在博弈对抗训练中取得显著的效果。论文成果应用于MaCA异构多智能体博弈对抗全国竞赛,将PK-MADDPG算法与经典规则算法的博弈对抗结果进行比较,验证了所提算法的有效性。

目前,基于深度强化学习的机器学习方法受到越 来越多的关注,更多的游戏通过训练智能体的方式与 人类进行人机对抗,典型代表有在围棋领域获得成功 的 AlphaGo 以及在游戏《星际争霸》人机对抗赛中获得 成功的 AlphaStar 等,越来越多的研究将深度强化学习 方法融入 RTS 游戏领域[1⁃3] 。 如 Ye D 尝试利用改进的 PPO 算法训练王者荣耀游戏中的英雄 AI,取得了较好 的训练效果[4] 。 Silver D 设计了一种基于强化学习算 法的训练框架,不需要游戏规则以外的任何人类知识, 可以让 AlphaGo 自己训练,同样达到了很高的智能 性[5] 。 Barriga N 利用深度强化学习技术和监督策略学 习改善 RTS 游戏的 AI 性能,取得了击败游戏内置 AI 的成果[6] 。 大数据和人工智能技术加速运用于战略问 题研究,战略博弈推演的智能化特征凸显[7⁃8] 。 研究表 明,人工智能在智能博弈对抗与推演方面受到广泛关 注,并在近年成为研究热点[9⁃11] 。 但是,对宽泛条件下 的收敛问题以及收敛速度问题,仍然缺乏有效的解决 方法,特别是在对抗方面,采用强化学习算法使其具有 高水平的智能性仍是当前研究的难点。 本文分析了当前主流且成熟的多智能体强化学习 算法,将先验知识与强化学习算法相结合,解决了强化 学习算法在多智能体对抗训练初期效果一般且不能快 速收敛的问题,提升了多智能体博弈对抗中的算子智 能性,同时,在实验平台中进行仿真实验,结果表明, PK⁃MADDPG 在 MaCA 多智能体博弈平台训练效果与 收敛速度方面均有提升。

成为VIP会员查看完整内容
48

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
多智能体博弈学习研究进展
专知会员服务
45+阅读 · 5月5日
基于大模型的态势认知智能体
专知会员服务
120+阅读 · 4月7日
基于深度学习的自然语言处理鲁棒性研究
专知会员服务
27+阅读 · 1月15日
基于知识图谱的仿真想定智能生成方法
专知会员服务
90+阅读 · 2023年6月4日
战术先验知识启发的多智能体双层强化学习
专知会员服务
98+阅读 · 2023年5月9日
基于课程学习的深度强化学习研究综述
专知会员服务
54+阅读 · 2022年11月28日
雷达图像深度学习模型的可解释性研究与探索
专知会员服务
52+阅读 · 2022年7月16日
城市大脑知识图谱构建及应用研究
专知会员服务
68+阅读 · 2022年6月28日
专知会员服务
81+阅读 · 2020年12月11日
多智能体深度强化学习的若干关键科学问题
专知会员服务
174+阅读 · 2020年5月24日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
18+阅读 · 2022年7月13日
兵棋推演的智能决策技术与挑战
专知
18+阅读 · 2022年7月5日
多模态情绪识别研究综述
专知
21+阅读 · 2020年12月21日
基于图神经网络的知识图谱研究进展
AI科技评论
19+阅读 · 2020年8月31日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
12+阅读 · 2020年8月11日
深度学习可解释性研究进展
专知
18+阅读 · 2020年6月26日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
红外弱小目标处理研究获进展
中科院之声
17+阅读 · 2017年11月19日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Arxiv
132+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
115+阅读 · 2023年3月24日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关VIP内容
多智能体博弈学习研究进展
专知会员服务
45+阅读 · 5月5日
基于大模型的态势认知智能体
专知会员服务
120+阅读 · 4月7日
基于深度学习的自然语言处理鲁棒性研究
专知会员服务
27+阅读 · 1月15日
基于知识图谱的仿真想定智能生成方法
专知会员服务
90+阅读 · 2023年6月4日
战术先验知识启发的多智能体双层强化学习
专知会员服务
98+阅读 · 2023年5月9日
基于课程学习的深度强化学习研究综述
专知会员服务
54+阅读 · 2022年11月28日
雷达图像深度学习模型的可解释性研究与探索
专知会员服务
52+阅读 · 2022年7月16日
城市大脑知识图谱构建及应用研究
专知会员服务
68+阅读 · 2022年6月28日
专知会员服务
81+阅读 · 2020年12月11日
多智能体深度强化学习的若干关键科学问题
专知会员服务
174+阅读 · 2020年5月24日
相关资讯
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
18+阅读 · 2022年7月13日
兵棋推演的智能决策技术与挑战
专知
18+阅读 · 2022年7月5日
多模态情绪识别研究综述
专知
21+阅读 · 2020年12月21日
基于图神经网络的知识图谱研究进展
AI科技评论
19+阅读 · 2020年8月31日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
12+阅读 · 2020年8月11日
深度学习可解释性研究进展
专知
18+阅读 · 2020年6月26日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
红外弱小目标处理研究获进展
中科院之声
17+阅读 · 2017年11月19日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员