Decentralized execution is one core demand in multi-agent reinforcement learning (MARL). Recently, most popular MARL algorithms have adopted decentralized policies to enable decentralized execution, and use gradient descent as the optimizer. However, there is hardly any theoretical analysis of these algorithms taking the optimization method into consideration, and we find that various popular MARL algorithms with decentralized policies are suboptimal in toy tasks when gradient descent is chosen as their optimization method. In this paper, we theoretically analyze two common classes of algorithms with decentralized policies -- multi-agent policy gradient methods and value-decomposition methods, and prove their suboptimality when gradient descent is used. To address the suboptimality issue, we propose the Transformation And Distillation (TAD) framework, which reformulates a multi-agent MDP as a special single-agent MDP with a sequential structure and enables decentralized execution by distilling the learned policy on the derived "single-agent" MDP. The approach is a two-stage learning paradigm that addresses the optimization problem in cooperative MARL, providing optimality guarantee with decent execution performance. Empirically, we implement TAD-PPO based on PPO, which can theoretically perform optimal policy learning in the finite multi-agent MDPs and shows significant outperformance on a large set of cooperative multi-agent tasks, from matrix game, hallway task, to StarCraft II, and football game.


翻译:去中心化执行是多智能体强化学习(MARL)中的一个核心需求。近年来,大多数流行的MARL算法采用去中心化策略以实现去中心化执行,并使用梯度下降作为优化器。然而,很少有理论分析将这些算法的优化方法纳入考量,并且我们发现,当选择梯度下降作为优化方法时,各种流行的采用去中心化策略的MARL算法在简单任务中表现次优。本文从理论上分析了两种常见的采用去中心化策略的算法类别——多智能体策略梯度方法和价值分解方法,并证明了在使用梯度下降时它们的次优性。为了解决次优性问题,我们提出了转换与蒸馏(TAD)框架,该框架将多智能体马尔可夫决策过程重新表述为一种具有序列结构的特殊单智能体马尔可夫决策过程,并通过在推导出的“单智能体”MDP上对学习到的策略进行蒸馏来实现去中心化执行。该方法是一种两阶段学习范式,旨在解决协作MARL中的优化问题,在保证执行性能的同时提供最优性保证。在实证方面,我们基于PPO实现了TAD-PPO,该算法理论上能够在有限多智能体MDP中进行最优策略学习,并在从矩阵博弈、走廊任务到星际争霸II和足球游戏等一系列广泛的协作多智能体任务上展现出显著优势。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员