【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

2020 年 7 月 2 日 专知
【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

多智能体深度强化学习中的Q值路径分解


Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

作者:

杨耀东 郝建业 陈广勇 汤宏垚 陈赢峰 胡裕靖 范长杰 魏忠钰

简介:

近年来,由于许多现实世界中的问题可以建模为多智能体系统,因此多智能体深度强化学习(MARL)已成为一个非常活跃的研究领域。一类特别有趣且广泛适用的问题可以被抽象为部分可观察的合作式多智能体环境,在这种环境中,一组智能体根据自己的局部观察和共享的全局奖励信号来学习协调其行为。一种自然的解决方案是求助于集中式训练、分布式执行范式。在集中式训练期间,一项关键挑战是多智能体信度分配:如何为单个智能体的策略分配属于它自身的贡献,从而更好地协调以最大化全局奖励。在本文中,我们提出了一种称为Q值路径分解(QPD)的新方法,可以将系统的全局Q值分解为单个智能体的Q值。和以前的工作限制单个Q值和全局Q值的表示关系不同,我们将累积梯度归因技术运用到深度MARL中,沿着轨迹路径直接分解全局Q值来为智能体进行信度分配。我们在具有挑战性的《星际争霸II》微观管理任务上评估了QPD,表明其与现有的MARL算法相比,QPD在同质和异质的多智能体场景中均达到了先进的性能。

方法:

                           

  • 在集中式训练、分布式执行的范式下,智能体会依据自身的历史轨迹和当前观察选择执行动作与环境交互,使用集中式的critic网络学习基于智能体联合观察和动作的全局Q值函数。

  • 在获得当前轨迹后,通过累积梯度技术沿着状态动作轨迹将全局Q值归因到每个智能体的特征上,将属于每个智能体的特征的归因信度叠加作为当前状态下智能体的个体Q值信度。

  • 使用个体Q值信度作为底层智能体策略网络的监督信号对智能体策略进行训练。

 

效果:

该算法在挑战性的星际争霸游戏平台进行了测试,实验显示QPD能够在同质和异质场景中学习到协调的策略,取得先进的性能。

地址:

https://www.zhuanzhi.ai/paper/58224edb0d1daf4fc46ba395a22ce0eb


参考链接:

https://mp.weixin.qq.com/s/2SkwD1csLLw0icZ9Kzpcmg


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“QPD” 可以获取《【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
欢迎扫一扫关注专知视频号,第一时间看人工智能最新精彩视频!

点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
登录查看更多
21

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。

主题: Representations for Stable Off-Policy Reinforcement Learning

摘要: 具有函数逼近的强化学习可能不稳定,甚至会产生分歧,尤其是与非策略学习和Bellman更新结合使用时。在深度强化学习中,这些问题已通过调整和规范化表示形式(特别是辅助任务)以经验方式得到处理。这表明表示学习可以提供一种保证稳定性的方法。在本文中,我们正式表明,即使在学习非策略时,确实存在非平凡的状态表示形式,规范的TD算法是稳定的。我们沿着三个轴分析基于策略过渡矩阵(例如原型值函数)的表示学习方案:逼近误差,稳定性和易于估计性。在最一般的情况下,我们表明Schur基提供了收敛性保证,但是很难从样本中进行估计。对于固定的奖励函数,我们发现相应Krylov子空间的正交基础是更好的选择。我们通过经验证明,可以使用随机梯度下降学习这些稳定的表示,从而为使用深度网络进行表示学习的改进技术打开了大门。

成为VIP会员查看完整内容
0
14

论文标题:CURL: Contrastive Unsupervised Representations for ReinforcementLearning(CURL:用于强化学习的对比无监督表示)

论文来源:ICML 2020 论文下载:https://www.zhuanzhi.ai/paper/6fb5994c1f98b326b45fb83ce319f0b9

代码链接:https://github.com/MishaLaskin/curl

摘要:

我们提出CURL:用于强化学习的对比无监督表示法。CURL使用表示学习从原始像素中提取高级特征,并在提取的特征上执行off-policy控制。在DeepMind控制套件和Atari游戏中,CURL在复杂任务中的表现优于之前基于像素的方法,无论是基于模型的还是无模型的,在100K环境和交互步骤的基准测试中,分别获得1.9倍和1.6倍的性能提升。在DeepMind控制套件中,CURL是第一个与使用基于状态特征的方法的采样效率和性能接近的基于图像的算法。

成为VIP会员查看完整内容
0
19

主题: Multi-Agent Determinantal Q-Learning

摘要: 具有分散执行力的集中训练已成为多主体学习中的重要范例。尽管可行,但是当前的方法依赖于限制性假设来分解跨执行主体的集中价值函数。在本文中,我们通过提出多智能体确定性Q学习来消除这种限制。我们的方法是基于Q-DPP,这是一种将确定性点过程(DPP)扩展到多智能体设置的新方法。 Q-DPP促进代理商获取多种行为模式;这允许对联合Q函数进行自然分解,而无需对值函数或特殊网络体系结构进行先验结构约束。我们证明Q-DPP在可分散合作任务上概括了包括VDN,QMIX和QTRAN在内的主要解决方案。为了有效地从Q-DPP提取样本,我们开发了具有理论近似保证的线性时间采样器。在训练过程中,我们的采样器还通过协调代理覆盖状态空间中的正交方向而受益于探索。我们在多个合作基准上评估我们的算法;与最新技术相比,我们算法的有效性得到了证明。

成为VIP会员查看完整内容
0
24

【简介】随着深度表示学习的发展,强化学习(RL)已经成为了一个强大的学习框架,其可以在高维度空间中学习复杂的规则。这篇综述总结了深度强化学习(DRL)算法,提供了采用强化学习的自动驾驶任务的分类方法,重点介绍了算法上的关键挑战和在现实世界中将强化学习部署在自动驾驶方面的作用,以及最终评估,测试和加强强化学习和模仿学习健壮性的现有解决方案。

论文链接: https://arxiv.org/abs/2002.00444

介绍:

自动驾驶(AD)系统由多个感知级任务组成,由于采用了深度学习架构,这些任务现在已经达到了很高的精度。除了感知任务之外,自主驾驶系统还包含多个其他任务,传统的监督学习方法已经不再适用。首先,当对agent行为的预测发生变化时,从自动驾驶agent所处的环境中接收到的未来传感器观察到的结果,例如获取市区最佳驾驶速度的任务。其次,监督信号(如碰撞时间(TTC),相对于agent最佳轨迹的侧向误差)表示agent的动态变化以及环境中的不确定性。这些问题都需要定义随机损失函数来使其最大化。最后,agent需要学习当前环境新的配置参数,预测其所处的环境中每一时刻的最优决策。这表明在观察agent和其所处环境的情况下,一个高维度的空间能够给出大量唯一的配置参数。在这些场景中,我们的目标是解决一个连续决策的问题。在这篇综述中,我们将介绍强化学习的概念,强化学习是一种很有前景的解决方案和任务分类方法,特别是在驱动策略、预测感知、路径规划以及低层控制器设计等领域。我们还重点回顾了强化学习在自动驾驶领域当中各种现实的应用。最后,我们通过阐述应用当前诸如模仿学习和Q学习等强化学习算法时所面临的算力挑战和风险来激励使用者对强化学习作出改进。

章节目录:

section2: 介绍一个典型的自动驾驶系统及其各个组件。

section3: 对深度强化学习进行介绍,并简要讨论关键概念。

section4: 探讨在强化学习基本框架上对其进行更深层次,更加复杂的扩展。

section5: 对强化学习用于自动驾驶领域的所面临的问题提供一个概述。

section6: 介绍将强化学习部署到真实世界自动驾驶系统中所面临的挑战。

section7: 总结

成为VIP会员查看完整内容
0
92
小贴士
相关资讯
多智能体强化学习(MARL)近年研究概览
PaperWeekly
22+阅读 · 2020年3月15日
当深度强化学习遇见图神经网络
专知
178+阅读 · 2019年10月21日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
54+阅读 · 2019年9月27日
17种深度强化学习算法用Pytorch实现
新智元
22+阅读 · 2019年9月16日
开源星际争霸2多智能体挑战smac
专知
14+阅读 · 2019年2月13日
深度强化学习简介
专知
28+阅读 · 2018年12月3日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
6+阅读 · 2018年3月9日
相关VIP内容
相关论文
Q-value Path Decomposition for Deep Multiagent Reinforcement Learning
Yaodong Yang,Jianye Hao,Guangyong Chen,Hongyao Tang,Yingfeng Chen,Yujing Hu,Changjie Fan,Zhongyu Wei
19+阅读 · 2020年2月10日
Chengsheng Mao,Liang Yao,Yuan Luo
7+阅读 · 2019年3月31日
Hongwei Wang,Fuzheng Zhang,Miao Zhao,Wenjie Li,Xing Xie,Minyi Guo
13+阅读 · 2019年1月23日
Meta-Transfer Learning for Few-Shot Learning
Qianru Sun,Yaoyao Liu,Tat-Seng Chua,Bernt Schiele
6+阅读 · 2018年12月6日
Borja Ibarz,Jan Leike,Tobias Pohlen,Geoffrey Irving,Shane Legg,Dario Amodei
4+阅读 · 2018年11月15日
Multi-task Deep Reinforcement Learning with PopArt
Matteo Hessel,Hubert Soyer,Lasse Espeholt,Wojciech Czarnecki,Simon Schmitt,Hado van Hasselt
3+阅读 · 2018年9月12日
Bipedal Walking Robot using Deep Deterministic Policy Gradient
Arun Kumar,Navneet Paul,S N Omkar
3+阅读 · 2018年7月16日
Yaodong Yang,Rui Luo,Minne Li,Ming Zhou,Weinan Zhang,Jun Wang
3+阅读 · 2018年6月12日
Ermo Wei,Drew Wicke,David Freelan,Sean Luke
10+阅读 · 2018年4月25日
Mohammadhosein Hasanbeig,Alessandro Abate,Daniel Kroening
5+阅读 · 2018年4月22日
Top
微信扫码咨询专知VIP会员