现代强化学习(Reinforcement Learning, RL)系统揭示了有关人类通用问题求解的一些深层规律。在那些能够低成本模拟新数据的领域,这些系统能够学习到远超人类能力的序列决策策略。现实社会中存在许多问题,其解决同样依赖这种能力,但这些问题往往处于无法低成本生成新数据的领域。在这种情境下,我们可以基于已有数据构建模拟器,但这些模拟器始终只能近似正确,并且在被查询到其训练分布之外时可能会出现严重错误。因此,我们训练智能体所处的环境与希望其最终部署的真实世界环境之间必然会存在失配(misalignment)。应对这种失配正是零样本强化学习(Zero-Shot Reinforcement Learning, Zero-Shot RL)的核心关注点——在这一问题设定中,智能体必须在完全没有实践机会的前提下,能够泛化到一个新任务或新领域。 尽管在理想化场景下实现零样本强化学习的方法已经取得了令人瞩目的进展,但若要在真实世界中复现这些成果,仍需新的研究。本文认为,要实现这一目标,至少需要应对三类约束:其一是数据质量约束:真实世界的数据集往往规模有限且同质化严重;其二是可观测性约束:在真实世界中,状态、动态和奖励通常只能被部分观测到;其三是数据可用性约束:事先获得数据的假设并不总是成立。 本文提出了一系列能够在这些约束下执行零样本强化学习的方法。通过一系列实证研究,我们揭示了现有方法的不足,并论证了所提出技术在弥补这些缺陷方面的合理性。我们相信,这些设计使我们更接近于能够部署到现实世界、解决实际问题的强化学习方法。

成为VIP会员查看完整内容
0

相关内容

《图强化学习在组合优化中的应用》综述
专知会员服务
59+阅读 · 2024年4月10日
【NTU博士论文】语言模型自适应迁移学习
专知会员服务
35+阅读 · 2023年12月20日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
104+阅读 · 2022年9月19日
【港科大博士论文】高效迁移学习的低资源自然语言理解
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
88+阅读 · 2022年7月11日
持续学习最新综述论文,29页pdf
专知会员服务
120+阅读 · 2021年4月22日
新加坡南洋理工最新37页《零样本学习综述》论文
专知会员服务
114+阅读 · 2019年10月20日
【MIT博士论文】数据高效强化学习,176页pdf
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
49+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
479+阅读 · 2023年3月31日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
《图强化学习在组合优化中的应用》综述
专知会员服务
59+阅读 · 2024年4月10日
【NTU博士论文】语言模型自适应迁移学习
专知会员服务
35+阅读 · 2023年12月20日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
104+阅读 · 2022年9月19日
【港科大博士论文】高效迁移学习的低资源自然语言理解
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
88+阅读 · 2022年7月11日
持续学习最新综述论文,29页pdf
专知会员服务
120+阅读 · 2021年4月22日
新加坡南洋理工最新37页《零样本学习综述》论文
专知会员服务
114+阅读 · 2019年10月20日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
49+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
479+阅读 · 2023年3月31日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
微信扫码咨询专知VIP会员