Latent World Models enhance scene representation through temporal self-supervised learning, presenting a perception annotation-free paradigm for end-to-end autonomous driving. However, the reconstruction-oriented representation learning tangles perception with planning tasks, leading to suboptimal optimization for planning. To address this challenge, we propose WorldRFT, a planning-oriented latent world model framework that aligns scene representation learning with planning via a hierarchical planning decomposition and local-aware interactive refinement mechanism, augmented by reinforcement learning fine-tuning (RFT) to enhance safety-critical policy performance. Specifically, WorldRFT integrates a vision-geometry foundation model to improve 3D spatial awareness, employs hierarchical planning task decomposition to guide representation optimization, and utilizes local-aware iterative refinement to derive a planning-oriented driving policy. Furthermore, we introduce Group Relative Policy Optimization (GRPO), which applies trajectory Gaussianization and collision-aware rewards to fine-tune the driving policy, yielding systematic improvements in safety. WorldRFT achieves state-of-the-art (SOTA) performance on both open-loop nuScenes and closed-loop NavSim benchmarks. On nuScenes, it reduces collision rates by 83% (0.30% -> 0.05%). On NavSim, using camera-only sensors input, it attains competitive performance with the LiDAR-based SOTA method DiffusionDrive (87.8 vs. 88.1 PDMS).


翻译:潜在世界模型通过时序自监督学习增强场景表征,为端到端自动驾驶提供了一种无需感知标注的范式。然而,以重建为导向的表征学习将感知与规划任务相互纠缠,导致规划任务的优化效果欠佳。为解决这一挑战,本文提出WorldRFT,一种面向规划的潜在世界模型框架。该框架通过分层规划分解与局部感知交互式精炼机制,将场景表征学习与规划任务对齐,并辅以强化学习微调(RFT)来提升安全关键场景下的策略性能。具体而言,WorldRFT整合了视觉-几何基础模型以增强三维空间感知能力,采用分层规划任务分解来引导表征优化,并利用局部感知迭代精炼机制推导出面向规划的驾驶策略。此外,我们提出了组相对策略优化(GRPO),该方法通过轨迹高斯化与碰撞感知奖励函数对驾驶策略进行微调,从而系统性提升安全性。WorldRFT在开环nuScenes与闭环NavSim基准测试中均取得了最先进的性能。在nuScenes数据集上,其碰撞率降低了83%(从0.30%降至0.05%)。在NavSim基准测试中,仅使用摄像头传感器输入,WorldRFT达到了与基于激光雷达的SOTA方法DiffusionDrive相竞争的性能(PDMS分数分别为87.8与88.1)。

0
下载
关闭预览

相关内容

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关资讯
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员