【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

我们研究了怎样的数据集假设可以解决离线的二人零和马尔可夫博弈。与离线单智能体马尔可夫决策过程形成鲜明对比的是，我们证明了在离线二人零和马尔可夫博弈中，单一策略集中假设对于学习纳什均衡(NE)策略是不够的。另一方面，我们提出了一个新的假设——单边集中，并设计了一个在此假设下被证明是有效的悲观型算法。此外，我们还证明单边集中假设对于学习NE策略是必要的。此外，我们的算法可以在不做任何修改的情况下，在具有均匀浓度假设的数据集和基于回合的马尔可夫博弈两种广泛研究的设置下，获得极大极小样本复杂度。我们的工作为理解离线多主体强化学习迈出了重要的第一步。

成为VIP会员查看完整内容

相关内容

华盛顿大学（University of Washington）

关注 0

华盛顿大学（University of Washington）创建于1861年，坐落在美国最适宜居住和工作的城市西雅图，是美国西海岸最古老的大学，是一所世界顶尖的著名大学，长期保持世界大学财政支出和研究经费前三位。华盛顿大学拥有世界最顶尖的教师队伍，拥有29,804名教职员工，包括5803名教师，师生比例为 1：7.3 ，其中众多教授为所在学术领域的世界领导者。

基于模型的强化学习综述

专知会员服务

148+阅读 · 2022年7月13日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

专知会员服务

43+阅读 · 2021年1月11日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日