【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

2022 年 11 月 10 日 专知

我们研究了怎样的数据集假设可以解决离线的二人零和马尔可夫博弈。与离线单智能体马尔可夫决策过程形成鲜明对比的是,我们证明了在离线二人零和马尔可夫博弈中,单一策略集中假设对于学习纳什均衡(NE)策略是不够的。另一方面,我们提出了一个新的假设——单边集中,并设计了一个在此假设下被证明是有效的悲观型算法。此外,我们还证明单边集中假设对于学习NE策略是必要的。此外,我们的算法可以在不做任何修改的情况下,在具有均匀浓度假设的数据集和基于回合的马尔可夫博弈两种广泛研究的设置下,获得极大极小样本复杂度。我们的工作为理解离线多主体强化学习迈出了重要的第一步。

https://simonsfoundation.s3.amazonaws.com/share/mps/symposia/2022/NDiTML/NDiTML2022-%20Du.pdf



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“SORL” 就可以获取【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
1

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
59+阅读 · 2021年11月22日
专知会员服务
21+阅读 · 2021年7月10日
专知会员服务
21+阅读 · 2021年5月27日
【NeurIPS2022】分布式自适应元强化学习
专知
3+阅读 · 2022年10月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
Arxiv
13+阅读 · 2021年10月9日
Financial Time Series Representation Learning
Arxiv
10+阅读 · 2020年3月27日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员