Existing multi-agent reinforcement learning methods are limited typically to a small number of agents. When the agent number increases largely, the learning becomes intractable due to the curse of the dimensionality and the exponential growth of agent interactions. In this paper, we present Mean Field Reinforcement Learning where the interactions within the population of agents are approximated by those between a single agent and the average effect from the overall population or neighboring agents; the interplay between the two entities is mutually reinforced: the learning of the individual agent's optimal policy depends on the dynamics of the population, while the dynamics of the population change according to the collective patterns of the individual policies. We develop practical mean field Q-learning and mean field Actor-Critic algorithms and analyze the convergence of the solution to Nash equilibrium. Experiments on Gaussian squeeze, Ising model, and battle games justify the learning effectiveness of our mean field approaches. In addition, we report the first result to solve the Ising model via model-free reinforcement learning methods.


翻译:现有多试剂强化学习方法通常限于少数代理商。当代理商数目大量增加时,由于代理商相互作用的维度和指数增长的诅咒,学习变得难以操作。在本文件中,我们介绍了 " 平均强化学习 ",其中代理商人口内部的相互作用近似于单一代理商与总体人口或周边代理商平均效应之间的相互作用;两个实体之间的相互作用相互加强:了解个体代理商的最佳政策取决于人口动态,而人口动态则根据个人政策的集体模式变化。我们开发了实用的中平均值的 " Q学习 " 和 " 中平均值的Anderor-Critical " 算法,并分析了纳什平衡解决方案的趋同。关于高斯挤压、伊星模型和战斗游戏的实验证明我们的平均实地方法的学习效果是正确的。此外,我们报告了通过无模型强化学习方法解决伊星模型的第一个结果。

5
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
8+阅读 · 2019年1月8日
Arxiv
4+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
8+阅读 · 2019年1月8日
Arxiv
4+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年4月22日
Top
微信扫码咨询专知VIP会员