我们研究了怎样的数据集假设可以解决离线的二人零和马尔可夫博弈。与离线单智能体马尔可夫决策过程形成鲜明对比的是,我们证明了在离线二人零和马尔可夫博弈中,单一策略集中假设对于学习纳什均衡(NE)策略是不够的。另一方面,我们提出了一个新的假设——单边集中,并设计了一个在此假设下被证明是有效的悲观型算法。此外,我们还证明单边集中假设对于学习NE策略是必要的。此外,我们的算法可以在不做任何修改的情况下,在具有均匀浓度假设的数据集和基于回合的马尔可夫博弈两种广泛研究的设置下,获得极大极小样本复杂度。我们的工作为理解离线多主体强化学习迈出了重要的第一步。

成为VIP会员查看完整内容
44

相关内容

华盛顿大学(University of Washington)创建于1861年,坐落在美国最适宜居住和工作的城市西雅图,是美国西海岸最古老的大学,是一所世界顶尖的著名大学,长期保持世界大学财政支出和研究经费前三位。华盛顿大学拥有世界最顶尖的教师队伍,拥有29,804名教职员工,包括5803名教师,师生比例为 1:7.3 ,其中众多教授为所在学术领域的世界领导者。
基于模型的强化学习综述
专知会员服务
132+阅读 · 2022年7月13日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
19+阅读 · 2021年10月24日
南大最新综述论文:基于模型的强化学习
新智元
7+阅读 · 2022年8月1日
基于模型的强化学习综述
专知
18+阅读 · 2022年7月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年12月30日
VIP会员
相关VIP内容
基于模型的强化学习综述
专知会员服务
132+阅读 · 2022年7月13日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
19+阅读 · 2021年10月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员