多智能体强化学习(MARL)算法被广泛应用于处理动态多智能体系统(MAS)中需要智能体之间协作和竞争的复杂任务。然而,从头开始学习这类任务是非常艰巨的,而且可能并不总是可行,特别是对于具有大量交互智能体的 MAS 而言,这是因为样本复杂性很大。因此,重新利用从过去的经验或其他智能体中获得的知识,可以有效地加快学习过程,提升 MARL 算法的水平。在本研究中,我们引入了一个新颖的框架,通过将各种状态空间统一为固定大小的输入,使一个统一的深度学习策略在 MAS 的不同场景中都可行,从而实现 MARL 的迁移学习。我们在 "星际争霸多智能体挑战赛"(SMAC)环境中的一系列场景中评估了我们的方法,结果表明,与从头开始学习的智能体相比,利用从其他场景中学到的操纵技能,多智能体的学习性能有了显著提高。此外,我们还采用了 "课程迁移学习"(CTL),使我们的深度学习策略能够在预先设计好的按难度等级组织的同质学习场景中逐步获取知识和技能。这一过程促进了智能体之间和智能体内部的知识转移,从而在更复杂的异构场景中实现较高的多智能体学习性能。

图3:单个单元的迁移学习模型表示

成为VIP会员查看完整内容
42

相关内容

《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
《探索具有对抗性混合的神经网络防御》2023最新79页论文
《分布式多智能体深度强化学习:竞争性博弈》最新论文
专知会员服务
127+阅读 · 2023年3月16日
《人机交互中机器学习的透明通信》论文
专知会员服务
32+阅读 · 2023年3月12日
浙大《深度学习低样本目标检测》综述论文
专知会员服务
76+阅读 · 2021年12月13日
《过参数化机器学习理论》综述论文
专知会员服务
46+阅读 · 2021年9月19日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
467+阅读 · 2023年3月31日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员