MA2QL:全面权力下放多机构加强机构学习的最低限度办法 (MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent Reinforcement Learning) - 专知论文

会员服务 ·

0

Learning · Agent · 强化学习 · 纳什均衡 · 相互独立的 ·

2022 年 9 月 17 日

MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent Reinforcement Learning

翻译：MA2QL:全面权力下放多机构加强机构学习的最低限度办法

Kefan Su,Siyuan Zhou,Chuang Gan,Xiangjun Wang,Zongqing Lu

Decentralized learning has shown great promise for cooperative multi-agent reinforcement learning (MARL). However, non-stationarity remains a significant challenge in decentralized learning. In the paper, we tackle the non-stationarity problem in the simplest and fundamental way and propose \textit{multi-agent alternate Q-learning} (MA2QL), where agents take turns to update their Q-functions by Q-learning. MA2QL is a \textit{minimalist} approach to fully decentralized cooperative MARL but is theoretically grounded. We prove that when each agent guarantees a $\varepsilon$-convergence at each turn, their joint policy converges to a Nash equilibrium. In practice, MA2QL only requires minimal changes to independent Q-learning (IQL). We empirically evaluate MA2QL on a variety of cooperative multi-agent tasks. Results show MA2QL consistently outperforms IQL, which verifies the effectiveness of MA2QL, despite such minimal changes.

翻译：分散化学习显示合作性多试剂强化学习(MARL)大有希望。然而,非静态仍然是分散化学习的重大挑战。在论文中,我们以最简单和根本的方式解决非静态问题,并提议“MA2QL”,代理转而通过Q学习来更新其功能。MA2QL是完全分散化合作性强化学习(MARL)的一个textit{minististr}方法,但理论上是有根据的。我们证明,当每个代理保证在每一转弯时都有一个$\varepslon$-converggence,他们的联合政策就会与纳什平衡相汇合。在实践中,MA2QL只需要对独立的Q学习(IQL)做最低限度的修改。我们从经验上评估了多种合作性多试剂任务中的MA2QL。结果显示,MA2QL始终超越IQL,它验证了MA2QL的有效性,尽管这种微小的变化。

0

相关内容

Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

23+阅读 · 2022年3月19日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

252+阅读 · 2020年4月19日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

【ICIG2021】Latest News & Announcements of the Workshop

【ICIG2021】Latest News & Announcements of the Workshop

中国图象图形学学会CSIG

0+阅读 · 2021年12月20日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

基于氧化锌微米线与银薄膜的表面等离子体Fabry-Perot微腔研究

国家自然科学基金

0+阅读 · 2013年12月31日

猪心肌线粒体ATP合成酶c亚基的拓扑结构与生物力学特性

国家自然科学基金

0+阅读 · 2012年12月31日

光敏性POSS杂化共聚物的多重逐级响应自组装研究

国家自然科学基金

0+阅读 · 2012年12月31日

向无源网络供电的VSC-HVDC故障穿越控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

Shc C蛋白参与罗哌卡因脊髓神经毒性机制的作用

国家自然科学基金

0+阅读 · 2012年12月31日

线粒体转运马达Myo19结构与功能的研究

国家自然科学基金

0+阅读 · 2012年12月31日

福氏志贺氏菌HtrA蛋白功能研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于磁聚焦技术的经颅磁刺激对大鼠脑缺血再灌注损伤保护作用机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

HSP70调节线粒体基因转录和增强功能参与病毒感染神经元保护作用的新机制

国家自然科学基金

0+阅读 · 2009年12月31日

非线性不连续系统的稳定与镇定

国家自然科学基金

0+阅读 · 2008年12月31日

Hybrid Indoor Localization via Reinforcement Learning-based Information Fusion

Arxiv

0+阅读 · 2022年10月27日

Opportunistic Episodic Reinforcement Learning

Arxiv

0+阅读 · 2022年10月24日

A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets

Arxiv

0+阅读 · 2022年10月24日

Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs

Arxiv

0+阅读 · 2022年10月24日

IDRL: Identifying Identities in Multi-Agent Reinforcement Learning with Ambiguous Identities

Arxiv

0+阅读 · 2022年10月24日

Value Function Decomposition for Iterative Design of Reinforcement Learning Agents

Arxiv

0+阅读 · 2022年10月20日

MARLlib: Extending RLlib for Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2022年10月11日

Reinforcement Learning on Graph: A Survey

Arxiv

67+阅读 · 2022年4月13日

Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

Arxiv

33+阅读 · 2022年1月11日

Multi-Agent Simulation for AI Behaviour Discovery in Operations Research

Arxiv

39+阅读 · 2021年8月30日

VIP会员

文章信息

相关主题

相互独立的

相关VIP内容

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

23+阅读 · 2022年3月19日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

252+阅读 · 2020年4月19日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

【ICIG2021】Latest News & Announcements of the Workshop

【ICIG2021】Latest News & Announcements of the Workshop

中国图象图形学学会CSIG

0+阅读 · 2021年12月20日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

相关论文

Hybrid Indoor Localization via Reinforcement Learning-based Information Fusion

Arxiv

0+阅读 · 2022年10月27日

Opportunistic Episodic Reinforcement Learning

Arxiv

0+阅读 · 2022年10月24日

A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets

Arxiv

0+阅读 · 2022年10月24日

Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs

Arxiv

0+阅读 · 2022年10月24日

IDRL: Identifying Identities in Multi-Agent Reinforcement Learning with Ambiguous Identities

Arxiv

0+阅读 · 2022年10月24日

Value Function Decomposition for Iterative Design of Reinforcement Learning Agents

Arxiv

0+阅读 · 2022年10月20日

MARLlib: Extending RLlib for Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2022年10月11日

Reinforcement Learning on Graph: A Survey

Arxiv

67+阅读 · 2022年4月13日

Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

Arxiv

33+阅读 · 2022年1月11日

Multi-Agent Simulation for AI Behaviour Discovery in Operations Research

Arxiv

39+阅读 · 2021年8月30日

相关基金

基于氧化锌微米线与银薄膜的表面等离子体Fabry-Perot微腔研究

国家自然科学基金

0+阅读 · 2013年12月31日

猪心肌线粒体ATP合成酶c亚基的拓扑结构与生物力学特性

国家自然科学基金

0+阅读 · 2012年12月31日

光敏性POSS杂化共聚物的多重逐级响应自组装研究

国家自然科学基金

0+阅读 · 2012年12月31日

向无源网络供电的VSC-HVDC故障穿越控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

Shc C蛋白参与罗哌卡因脊髓神经毒性机制的作用

国家自然科学基金

0+阅读 · 2012年12月31日

线粒体转运马达Myo19结构与功能的研究

国家自然科学基金

0+阅读 · 2012年12月31日

福氏志贺氏菌HtrA蛋白功能研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于磁聚焦技术的经颅磁刺激对大鼠脑缺血再灌注损伤保护作用机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

HSP70调节线粒体基因转录和增强功能参与病毒感染神经元保护作用的新机制

国家自然科学基金

0+阅读 · 2009年12月31日

非线性不连续系统的稳定与镇定

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员