强化学习(RL)是一种有希望的训练智能体的框架,这些代理通过直接与环境互动来学习优化长期效用。创建可扩展到大规模状态-行动空间的RL方法是确保RL系统在现实世界中部署的关键问题。然而,几个挑战限制了RL在大规模设置中的适用性。这些包括与探索、低样本效率、计算不可行性、任务约束(如去中心化)有关的困难,以及关于在可能未见过的情况下的表现、泛化和稳健性等重要属性的保证的缺乏。

这篇论文的动机是为了弥合上述的差距。我们提出了几种原则性的算法和框架来研究和解决RL中的上述挑战。所提出的方法覆盖了广泛的RL设置(单一和多代理系统(MAS),后者中的所有变化,预测和控制,基于模型和无模型的方法,基于价值和基于策略的方法)。在这项工作中,我们针对几个不同的问题提出了首次的结果:例如,Bellman方程的张量化,这允许指数样本效率的增益(第4章),MAS中由结构约束导致的可证明的次优性(第3章),合作MAS中的组合泛化结果(第5章),关于观察偏移的泛化结果(第7章),在概率RL框架中学习确定性策略(第6章)。我们的算法明显地提高了性能和样本效率,并提高了可扩展性。此外,我们还阐述了在不同框架下代理的泛化方面。这些属性都是通过使用几种高级工具(例如,统计机器学习,状态抽象,变分推断,张量理论)来驱动的。总的来说,这篇论文的贡献显著推动了使RL代理准备好应用于大规模,真实世界应用的进程

成为VIP会员查看完整内容
48

相关内容

牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。

【普林斯顿博士论文】智能体和机制的学习算法,201页pdf
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
67+阅读 · 2023年2月23日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
44+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年7月31日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
44+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员