摘要—对通用人工智能(AGI)的追求使具身智能成为机器人研究的前沿课题。具身智能关注的是能够在物理世界中感知、推理并行动的智能体。要实现鲁棒的具身智能,不仅需要先进的感知与控制能力,还需具备将抽象认知扎根于现实交互中的能力。在这一过程中,两项基础技术——物理模拟器与世界模型——已成为关键推动力量。物理模拟器为训练与评估机器人智能体提供了可控、高保真度的环境,使复杂行为的开发变得安全而高效。相比之下,世界模型为机器人赋予了对环境的内部表示能力,从而使其能够进行预测性规划和超越直接感知的自适应决策。本文系统回顾了近年来通过物理模拟器与世界模型融合学习具身智能的研究进展。我们分析了这两者在提升智能体自主性、适应性与泛化能力方面的互补作用,并探讨了外部模拟与内部建模之间的协同关系,如何推动从模拟训练走向真实部署的跨越。通过整合当前的研究成果与开放问题,本文旨在为构建更强大、更具泛化能力的具身智能系统提供全面的视角。我们还维护了一个持续更新的文献与开源项目仓库,地址为:
https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。 关键词—具身智能,世界模型,物理模拟器,自动驾驶,机器人学习
随着人工智能 [1][2] 与机器人技术 [3][4] 的快速发展,智能体与物理世界的交互日益成为研究的核心焦点。通用人工智能(AGI)——即能在多样领域中匹敌甚至超越人类认知能力的系统——的追求,提出了一个关键问题:如何将抽象推理能力扎根于对现实世界的理解与行动之中?
智能机器人作为具身智能体,正在成为通往 AGI 的重要媒介,它们为计算智能与真实环境交互之间架起了物理桥梁。不同于仅在符号或数字数据上运作的“非具身”智能系统,具身智能强调通过与环境的物理交互来实现感知、行动与认知的结合。这一范式使机器人能够在任务执行过程中持续根据来自物理世界的反馈调整其行为与认知,从而使机器人不再只是人工智能的一个应用场景,而是通向通用智能的关键组成部分。 具身智能的意义远不止于完成物理任务。借助对物理身体的感知与行动 [5],机器人可以通过持续交互实现稳健的经验学习、假设检验与策略优化。这种对感知输入、运动控制和认知处理的闭环整合,构成了真正自主性与适应性的基础,使机器人能够更类人地推理与响应世界 [6]。
随着智能机器人在现实世界中的广泛部署,例如老年照护 [7]、医疗辅助 [8]、灾害救援 [9] 和教育 [10] 等场景,它们在动态不确定环境中自主、安全运行的能力变得尤为关键。然而,应用场景的多样性与技术进步的高速演化,使得亟需建立一个系统性框架来评估与比较机器人能力。建立一个科学合理的机器人智能分级系统,不仅有助于明确技术发展路线,也为监管、安全评估与伦理部署提供了关键指导。 为应对这一需求,近期研究探索了多种机器人能力量化框架,如 DARPA 机器人挑战赛的评估机制 [11]、服务机器人安全标准 ISO 13482 [12],以及关于自主等级的评述 [13][14]。尽管如此,仍缺乏一个能够综合智能认知、自主行为与社会交互维度的完整分级体系。
在本研究中,我们提出了一个针对智能机器人的能力分级模型,系统地定义了从基础机械执行到高级完全自主社会智能的五个等级(IR-L0 至 IR-L4)。该分级体系涵盖自主性、任务处理能力、环境适应能力与社会认知等关键维度,旨在为智能机器人的技术演进提供统一的评估与指导框架。 推动机器人实现智能行为的核心技术包括两个方面:物理模拟器与世界模型。二者在提升机器人控制能力与扩展潜能方面发挥着关键作用。Gazebo [15]、MuJoCo [16] 等模拟器可对物理世界进行显式建模,提供可控环境,使机器人在部署前能够进行训练、测试与行为调优。这些模拟器如同训练场,帮助机器人在避免高昂代价与现实风险的前提下实现行为预测与优化。 与此不同,世界模型则为机器人提供了环境的内部表征,使其能够在自身认知框架中进行模拟、预测与规划。按照 NVIDIA 的定义,世界模型是“理解真实世界动态(包括物理和空间属性)的生成式 AI 模型” [17]。这一概念因 Ha 和 Schmidhuber 的开创性研究 [18] 而受到广泛关注,该研究展示了智能体如何学习紧凑的环境表征以进行内部规划。 模拟器与世界模型之间的协同作用能够增强机器人在多种场景下的自主性、适应性与任务性能。本文将探讨机器人控制算法、模拟器与世界模型之间的互动机制。通过分析模拟器如何提供结构化外部环境以训练智能体,以及世界模型如何构建内部表征以实现更具适应性的决策,我们旨在全面阐述这些组件如何协同提升智能机器人的能力。
覆盖范围。 本综述全面分析了机器人控制算法、模拟器与世界模型之间的相互关系,重点关注 2018 年至 2025 年的最新进展。内容涵盖了传统基于物理的模拟器与新兴的世界模型,重点突出其在自动驾驶与机器人系统中的应用。 本综述不同于现有文献,后者通常聚焦于单一组件(如机器人模拟器 [19]–[21] 或世界模型 [22]–[24]),而本研究则系统地探讨了物理模拟器与世界模型在推动具身智能发展过程中的协同作用,揭示它们在智能机器人发展中的互补角色。 主要贡献:
智能机器人能力分级标准: 提出一个涵盖自主性、任务处理能力、环境适应能力与社会认知能力四个关键维度的五级能力分级体系(IR-L0 至 IR-L4)。 * 机器人学习技术分析: 系统回顾智能机器人在腿式运动(如双足行走、摔倒恢复)、操作控制(如灵巧操作、双手协调)与人机交互(如认知协作、社会嵌入)方面的最新技术进展。 * 主流物理模拟器分析: 全面对比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模拟器的物理仿真能力、渲染质量与传感器支持能力。 * 世界模型的最新进展: 首先回顾世界模型的代表性架构及其潜在作用,例如作为可控模拟器、动态建模器与奖励模型在具身智能中的应用。进一步探讨专为自动驾驶与关节型机器人设计的最新世界模型方案。
论文结构如图 2 所示,具体安排如下: * 第 1 节: 引出具身智能的重要性,并阐述物理模拟器与世界模型在其中的作用。 * 第 2 节: 提出一套完整的智能机器人能力分级体系。
第 2.1 节:分级标准 * 第 2.2 节:分级影响因素 * 第 2.3 节:分级定义 * 第 3 节: 回顾机器人在移动性、操作性与人机交互方面的任务能力进展。
第 3.1 节:相关机器人技术 * 第 3.2 节:机器人运动能力 * 第 3.3 节:机器人操作能力 * 第 3.4 节:人机交互能力 * 第 4 节: 讨论主流模拟器在机器人研究中的优缺点。
第 4.1 节:主流模拟器综述 * 第 4.2 节:物理仿真能力 * 第 4.3 节:渲染能力 * 第 4.4 节:传感器与关节组件支持 * 第 4.5 节:讨论与未来展望 * 第 5 节: 介绍世界模型的代表性架构与核心作用。
第 5.1 节:世界模型架构 * 第 5.2 节:世界模型的核心功能 * 第 6 节: 探讨世界模型在自动驾驶与关节型机器人中的应用与挑战。
第 6.1 节:用于自动驾驶的世界模型 * 第 6.2 节:用于关节型机器人的世界模型 * 第 6.3 节:挑战与未来方向