When solving two-player zero-sum games, multi-agent reinforcement learning (MARL) algorithms often create populations of agents where, at each iteration, a new agent is discovered as the best response to a mixture over the opponent population. Within such a process, the update rules of "who to compete with" (i.e., the opponent mixture) and "how to beat them" (i.e., finding best responses) are underpinned by manually developed game theoretical principles such as fictitious play and Double Oracle. In this paper, we introduce a novel framework -- Neural Auto-Curricula (NAC) -- that leverages meta-gradient descent to automate the discovery of the learning update rule without explicit human design. Specifically, we parameterise the opponent selection module by neural networks and the best-response module by optimisation subroutines, and update their parameters solely via interaction with the game engine, where both players aim to minimise their exploitability. Surprisingly, even without human design, the discovered MARL algorithms achieve competitive or even better performance with the state-of-the-art population-based game solvers (e.g., PSRO) on Games of Skill, differentiable Lotto, non-transitive Mixture Games, Iterated Matching Pennies, and Kuhn Poker. Additionally, we show that NAC is able to generalise from small games to large games, for example training on Kuhn Poker and outperforming PSRO on Leduc Poker. Our work inspires a promising future direction to discover general MARL algorithms solely from data.


翻译:当解决双玩者零和游戏时,多试剂强化学习(MARL)算法(MARL)通常会创造代理商群,在每次迭代时,都会发现一个新的代理商,这是对对手群中混合的最好反应。在这一过程中,我们通过“谁竞争”(即对手混合)和“如何击败他们”(即找到最佳反应)更新规则,这得到人工开发的游戏理论原则的支持,例如假游戏和双甲骨文等。在本文中,我们引入了一个新的框架 -- -- 神经自动库(NAC) -- -- 利用基因梯级的下降将学习更新规则的发现自动化,而没有明确的人类设计。具体来说,我们通过神经网络和最佳反应模块对“谁竞争”(即对手混合)和“如何击败他们”(即找到最佳反应)规则进行调整,并且仅仅通过与游戏引擎互动来更新其参数,让两个玩家都力求最大限度地减少其利用性。令人惊讶的是,即使没有人性设计,我们所发现的MARL的预感知的预感(ML)的预感),在S-Mod-mocial-Model-model-model-model-model-model-model-model-model-model-model-model-model-model-mocial-mocial-model-model-model-model-mocal-mocal-mocal-model-model-model-model-model-model-modal-model-model-modia-modia-modia-model-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-modia-mod-mod-mod-mod-mod-mod-modia-modia-modia-modia-modia-modia-modia-modia-mod

0
下载
关闭预览

相关内容

Automator是苹果公司为他们的Mac OS X系统开发的一款软件。 只要通过点击拖拽鼠标等操作就可以将一系列动作组合成一个工作流,从而帮助你自动的(可重复的)完成一些复杂的工作。Automator还能横跨很多不同种类的程序,包括:查找器、Safari网络浏览器、iCal、地址簿或者其他的一些程序。它还能和一些第三方的程序一起工作,如微软的Office、Adobe公司的Photoshop或者Pixelmator等。
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
49+阅读 · 2020年8月25日
【IJCAJ 2020】多通道神经网络 Multi-Channel Graph Neural Networks
专知会员服务
25+阅读 · 2020年7月19日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
152+阅读 · 2020年5月26日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Arxiv
4+阅读 · 2020年9月28日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
8+阅读 · 2019年5月20日
Arxiv
23+阅读 · 2018年10月24日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
9+阅读 · 2018年2月4日
VIP会员
相关资讯
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
相关论文
Arxiv
4+阅读 · 2020年9月28日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
8+阅读 · 2019年5月20日
Arxiv
23+阅读 · 2018年10月24日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
9+阅读 · 2018年2月4日
Top
微信扫码咨询专知VIP会员