【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

强化学习（RL）是一种有希望的训练智能体的框架，这些代理通过直接与环境互动来学习优化长期效用。创建可扩展到大规模状态-行动空间的RL方法是确保RL系统在现实世界中部署的关键问题。然而，几个挑战限制了RL在大规模设置中的适用性。这些包括与探索、低样本效率、计算不可行性、任务约束（如去中心化）有关的困难，以及关于在可能未见过的情况下的表现、泛化和稳健性等重要属性的保证的缺乏。

这篇论文的动机是为了弥合上述的差距。我们提出了几种原则性的算法和框架来研究和解决RL中的上述挑战。所提出的方法覆盖了广泛的RL设置（单一和多代理系统（MAS），后者中的所有变化，预测和控制，基于模型和无模型的方法，基于价值和基于策略的方法）。在这项工作中，我们针对几个不同的问题提出了首次的结果：例如，Bellman方程的张量化，这允许指数样本效率的增益（第4章），MAS中由结构约束导致的可证明的次优性（第3章），合作MAS中的组合泛化结果（第5章），关于观察偏移的泛化结果（第7章），在概率RL框架中学习确定性策略（第6章）。我们的算法明显地提高了性能和样本效率，并提高了可扩展性。此外，我们还阐述了在不同框架下代理的泛化方面。这些属性都是通过使用几种高级工具（例如，统计机器学习，状态抽象，变分推断，张量理论）来驱动的。总的来说，这篇论文的贡献显著推动了使RL代理准备好应用于大规模，真实世界应用的进程

成为VIP会员查看完整内容

相关内容

牛津大学 (University of Oxford)

关注 31

牛津大学是一所英国研究型大学，也是罗素大学集团、英国“G5超级精英大学”，欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人，包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月，泰晤士高等教育发布了2016-2017年度世界大学排名，其中牛津大学排名第一。

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

专知会员服务

52+阅读 · 2023年4月18日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

44+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

106+阅读 · 2022年9月19日