Reinforcement Learning (RL) has shown its remarkable and generalizable capability in legged locomotion through sim-to-real transfer. However, while adaptive methods like domain randomization are expected to enhance policy robustness across diverse environments, they potentially compromise the policy's performance in any specific environment, leading to suboptimal real-world deployment due to the No Free Lunch theorem. To address this, we propose LoopSR, a lifelong policy adaptation framework that continuously refines RL policies in the post-deployment stage. LoopSR employs a transformer-based encoder to map real-world trajectories into a latent space and reconstruct a digital twin of the real world for further improvement. Autoencoder architecture and contrastive learning methods are adopted to enhance feature extraction of real-world dynamics. Simulation parameters for continual training are derived by combining predicted values from the decoder with retrieved parameters from a pre-collected simulation trajectory dataset. By leveraging simulated continual training, LoopSR achieves superior data efficiency compared with strong baselines, yielding eminent performance with limited data in both sim-to-sim and sim-to-real experiments. Please refer to https://peilinwu.site/looping-sim-and-real.github.io/ for videos and code.


翻译:强化学习(RL)通过仿真到现实的迁移,在足式运动控制中展现了其卓越且泛化的能力。然而,尽管领域随机化等自适应方法有望增强策略在不同环境中的鲁棒性,但根据无免费午餐定理,它们可能损害策略在任一特定环境中的性能,导致现实世界部署效果欠佳。为解决此问题,我们提出LoopSR,一种终身策略适应框架,可在部署后阶段持续优化RL策略。LoopSR采用基于Transformer的编码器,将现实世界轨迹映射到潜在空间,并重构现实世界的数字孪生以进行进一步改进。采用自编码器架构和对比学习方法以增强现实世界动力学特征提取。持续训练的仿真参数通过结合解码器的预测值与预收集仿真轨迹数据集中检索的参数获得。通过利用仿真持续训练,LoopSR在仿真到仿真及仿真到现实的实验中,与强基线相比实现了更优的数据效率,仅用有限数据即获得卓越性能。请访问https://peilinwu.site/looping-sim-and-real.github.io/获取视频和代码。

0
下载
关闭预览

相关内容

【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员