World models enable robots to conduct counterfactual reasoning in physical environments by predicting future world states. While conventional approaches often prioritize pixel-level reconstruction of future scenes, such detailed rendering is computationally intensive and unnecessary for planning tasks like navigation. We therefore propose that prediction and planning can be efficiently performed directly within a latent space of high-level semantic representations. To realize this, we introduce the Representative Latent space Navigation World Model (ReL-NWM). Rather than relying on reconstructionoriented latent embeddings, our method leverages a pre-trained representation encoder, DINOv3, and incorporates specialized mechanisms to effectively integrate action signals and historical context within this representation space. By operating entirely in the latent domain, our model bypasses expensive explicit reconstruction and achieves highly efficient navigation planning. Experiments show state-of-the-art trajectory prediction and image-goal navigation performance on multiple benchmarks. Additionally, we demonstrate real-world applicability by deploying the system on a Unitree G1 humanoid robot, confirming its efficiency and robustness in practical navigation scenarios.


翻译:世界模型使机器人能够通过预测未来世界状态在物理环境中进行反事实推理。传统方法通常优先考虑未来场景的像素级重建,但此类详细渲染计算密集,对于导航等规划任务并非必需。因此,我们提出预测与规划可直接在高层语义表征的潜在空间中高效执行。为实现这一目标,我们提出了代表性潜在空间导航世界模型(ReL-NWM)。该方法不依赖重建导向的潜在嵌入,而是利用预训练表征编码器DINOv3,并整合了专门机制以在此表征空间内有效融合动作信号与历史上下文。通过在潜在域中完全运行,我们的模型绕过了昂贵的显式重建,实现了高效的导航规划。实验表明,该模型在多个基准测试中取得了最先进的轨迹预测与图像目标导航性能。此外,我们通过在宇树G1人形机器人上部署该系统,验证了其在真实导航场景中的效率与鲁棒性。

0
下载
关闭预览

相关内容

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员