融合先验知识的异构多智能体强化学习算法研究 - 专知VIP

会员服务 ·

41

AI与军事 · 强化学习 · 智能博弈 · 多智能体强化学习 ·

2024 年 4 月 9 日

融合先验知识的异构多智能体强化学习算法研究

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来,基于深度强化学习的机器学习技术突破性进展为智能博弈对抗提供了新的技术发展方向。针对智能对抗中异构多智能体强化学习算法训练收敛速度慢,训练效果差异大等问题,提出了一种先验知识驱动的多智能体强化学习博弈对抗算法PK-MADDPG,构建了双重Critic框架下的MADDPG模型。该模型使用了经验优先回放技术来优化先验知识提取,在博弈对抗训练中取得显著的效果。论文成果应用于MaCA异构多智能体博弈对抗全国竞赛,将PK-MADDPG算法与经典规则算法的博弈对抗结果进行比较,验证了所提算法的有效性。

目前，基于深度强化学习的机器学习方法受到越来越多的关注，更多的游戏通过训练智能体的方式与人类进行人机对抗，典型代表有在围棋领域获得成功的ＡｌｐｈａＧｏ以及在游戏《星际争霸》人机对抗赛中获得成功的ＡｌｐｈａＳｔａｒ等，越来越多的研究将深度强化学习方法融入ＲＴＳ游戏领域［１⁃３］。如ＹｅＤ尝试利用改进的ＰＰＯ算法训练王者荣耀游戏中的英雄ＡＩ，取得了较好的训练效果［４］。ＳｉｌｖｅｒＤ设计了一种基于强化学习算法的训练框架，不需要游戏规则以外的任何人类知识，可以让ＡｌｐｈａＧｏ自己训练，同样达到了很高的智能性［５］。ＢａｒｒｉｇａＮ利用深度强化学习技术和监督策略学习改善ＲＴＳ游戏的ＡＩ性能，取得了击败游戏内置ＡＩ的成果［６］。大数据和人工智能技术加速运用于战略问题研究，战略博弈推演的智能化特征凸显［７⁃８］。研究表明，人工智能在智能博弈对抗与推演方面受到广泛关注，并在近年成为研究热点［９⁃１１］。但是，对宽泛条件下的收敛问题以及收敛速度问题，仍然缺乏有效的解决方法，特别是在对抗方面，采用强化学习算法使其具有高水平的智能性仍是当前研究的难点。本文分析了当前主流且成熟的多智能体强化学习算法，将先验知识与强化学习算法相结合，解决了强化学习算法在多智能体对抗训练初期效果一般且不能快速收敛的问题，提升了多智能体博弈对抗中的算子智能性，同时，在实验平台中进行仿真实验，结果表明，ＰＫ⁃ＭＡＤＤＰＧ在ＭａＣＡ多智能体博弈平台训练效果与收敛速度方面均有提升。

成为VIP会员查看完整内容

67

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

多智能体博弈学习研究进展

多智能体博弈学习研究进展

专知会员服务

89+阅读 · 2024年5月5日

基于大模型的态势认知智能体

基于大模型的态势认知智能体

专知会员服务

192+阅读 · 2024年4月7日

基于深度学习的自然语言处理鲁棒性研究

基于深度学习的自然语言处理鲁棒性研究

专知会员服务

29+阅读 · 2024年1月15日

基于知识图谱的仿真想定智能生成方法

基于知识图谱的仿真想定智能生成方法

专知会员服务

110+阅读 · 2023年6月4日

战术先验知识启发的多智能体双层强化学习

战术先验知识启发的多智能体双层强化学习

专知会员服务

115+阅读 · 2023年5月9日

基于课程学习的深度强化学习研究综述

基于课程学习的深度强化学习研究综述

专知会员服务

58+阅读 · 2022年11月28日

雷达图像深度学习模型的可解释性研究与探索

雷达图像深度学习模型的可解释性研究与探索

专知会员服务

58+阅读 · 2022年7月16日

城市大脑知识图谱构建及应用研究

城市大脑知识图谱构建及应用研究

专知会员服务

75+阅读 · 2022年6月28日

基于深度强化学习的组合优化研究进展

专知会员服务

89+阅读 · 2020年12月11日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

194+阅读 · 2020年5月24日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

31+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

27+阅读 · 2022年7月5日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

24+阅读 · 2020年12月21日

基于图神经网络的知识图谱研究进展

基于图神经网络的知识图谱研究进展

AI科技评论

20+阅读 · 2020年8月31日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

18+阅读 · 2020年8月11日

面向大数据领域的事理认知图谱构建与推断分析

面向大数据领域的事理认知图谱构建与推断分析

专知

21+阅读 · 2020年8月11日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

红外弱小目标处理研究获进展

红外弱小目标处理研究获进展

中科院之声

18+阅读 · 2017年11月19日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

35+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

面向快速油藏历史拟合的粒子群算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向动态优化问题的参数自适应及变结构生物地理学优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

15+阅读 · 2015年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

172+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

221+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

487+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

多智能体强化学习

相关VIP内容

多智能体博弈学习研究进展

多智能体博弈学习研究进展

专知会员服务

89+阅读 · 2024年5月5日

基于大模型的态势认知智能体

基于大模型的态势认知智能体

专知会员服务

192+阅读 · 2024年4月7日

基于深度学习的自然语言处理鲁棒性研究

基于深度学习的自然语言处理鲁棒性研究

专知会员服务

29+阅读 · 2024年1月15日

基于知识图谱的仿真想定智能生成方法

基于知识图谱的仿真想定智能生成方法

专知会员服务

110+阅读 · 2023年6月4日

战术先验知识启发的多智能体双层强化学习

战术先验知识启发的多智能体双层强化学习

专知会员服务

115+阅读 · 2023年5月9日

基于课程学习的深度强化学习研究综述

基于课程学习的深度强化学习研究综述

专知会员服务

58+阅读 · 2022年11月28日

雷达图像深度学习模型的可解释性研究与探索

雷达图像深度学习模型的可解释性研究与探索

专知会员服务

58+阅读 · 2022年7月16日

城市大脑知识图谱构建及应用研究

城市大脑知识图谱构建及应用研究

专知会员服务

75+阅读 · 2022年6月28日

基于深度强化学习的组合优化研究进展

专知会员服务

89+阅读 · 2020年12月11日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

194+阅读 · 2020年5月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】基础模型后训练的新方法

欧盟防务准备路线图：目标、冲突与2030之路（附“2030年防务准备路线图”原文）

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

Transformers 出现以来关系抽取任务的系统综述

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

31+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

27+阅读 · 2022年7月5日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

24+阅读 · 2020年12月21日

基于图神经网络的知识图谱研究进展

基于图神经网络的知识图谱研究进展

AI科技评论

20+阅读 · 2020年8月31日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

18+阅读 · 2020年8月11日

面向大数据领域的事理认知图谱构建与推断分析

面向大数据领域的事理认知图谱构建与推断分析

专知

21+阅读 · 2020年8月11日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

红外弱小目标处理研究获进展

红外弱小目标处理研究获进展

中科院之声

18+阅读 · 2017年11月19日

相关基金

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

35+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

面向快速油藏历史拟合的粒子群算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向动态优化问题的参数自适应及变结构生物地理学优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

15+阅读 · 2015年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

172+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

221+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

487+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员