Recent successes of value-based multi-agent deep reinforcement learning employ optimism in value function by carefully controlling learning rate(Omidshafiei et al., 2017) or reducing update prob-ability (Palmer et al., 2018). We introduce a de-centralized quantile estimator: Responsible Implicit Quantile Network (RIQN), while robust to teammate-environment interactions, able to reduce the amount of imposed optimism. Upon benchmarking against related Hysteretic-DQN(HDQN) and Lenient-DQN (LDQN), we findRIQN agents more stable, sample efficient and more likely to converge to the optimal policy.


翻译:最近在基于价值的多试剂深层强化学习方面取得的成功,通过仔细控制学习率(Omidshafiei等人,2017年)或降低更新概率(Palmer等人,2018年),在价值功能方面带来了乐观主义。 我们引入了一个分散的量化估算器:负责任的隐性量子网络(RIQN),同时对团队-环境互动十分活跃,能够减少强加的乐观程度。在对照相关的Hysteric-DQN(HDQN)和Lenient-DQN(LDQN)进行基准测试后,我们发现RIQN代理物更加稳定、高效、更可能与最佳政策趋同。

4
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
MIT新书《强化学习与最优控制》
专知会员服务
282+阅读 · 2019年10月9日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
8+阅读 · 2019年1月8日
Image Captioning based on Deep Reinforcement Learning
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
MIT新书《强化学习与最优控制》
专知会员服务
282+阅读 · 2019年10月9日
相关资讯
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
8+阅读 · 2019年1月8日
Image Captioning based on Deep Reinforcement Learning
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年4月22日
Top
微信扫码咨询专知VIP会员