Sample efficiency and exploration remain critical challenges in Deep Reinforcement Learning (DRL), particularly in complex domains. Offline RL, which enables agents to learn optimal policies from static, pre-collected datasets, has emerged as a promising alternative. However, offline RL is constrained by issues such as out-of-distribution (OOD) actions that limit policy performance and generalization. To overcome these limitations, we propose Meta Offline-Online Reinforcement Learning (MOORL), a hybrid framework that unifies offline and online RL for efficient and scalable learning. While previous hybrid methods rely on extensive design components and added computational complexity to utilize offline data effectively, MOORL introduces a meta-policy that seamlessly adapts across offline and online trajectories. This enables the agent to leverage offline data for robust initialization while utilizing online interactions to drive efficient exploration. Our theoretical analysis demonstrates that the hybrid approach enhances exploration by effectively combining the complementary strengths of offline and online data. Furthermore, we demonstrate that MOORL learns a stable Q-function without added complexity. Extensive experiments on 28 tasks from the D4RL and V-D4RL benchmarks validate its effectiveness, showing consistent improvements over state-of-the-art offline and hybrid RL baselines. With minimal computational overhead, MOORL achieves strong performance, underscoring its potential for practical applications in real-world scenarios.


翻译:样本效率与探索能力仍是深度强化学习(DRL)中的关键挑战,尤其在复杂领域中。离线强化学习使智能体能够从静态预收集数据集中学习最优策略,已成为一种有前景的替代方案。然而,离线强化学习受限于分布外(OOD)动作等问题,制约了策略性能与泛化能力。为克服这些局限,我们提出元离线-在线强化学习(MOORL),这是一种统一离线与在线强化学习的混合框架,旨在实现高效且可扩展的学习。尽管现有混合方法依赖大量设计组件和额外计算复杂度以有效利用离线数据,MOORL引入了一种元策略,能够无缝适应离线与在线轨迹。这使得智能体既能利用离线数据进行鲁棒初始化,又能通过在线交互驱动高效探索。理论分析表明,该混合方法通过有效结合离线与在线数据的互补优势增强了探索能力。此外,我们证明MOORL能够在不增加复杂度的前提下学习稳定的Q函数。在D4RL和V-D4RL基准测试的28项任务上进行的大量实验验证了其有效性,相较于当前最先进的离线及混合强化学习基线方法均显示出持续改进。MOORL以极小的计算开销实现了强劲性能,凸显了其在现实场景中实际应用的潜力。

0
下载
关闭预览

相关内容

Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员