ICCV 2025 | 超越π0，无界智慧提出A0，首个空间可供性感知的通用操作模型

由无界智慧（Spatialtemporal AI）团队推出的A0模型，是首个基于空间可供性感知的通用机器人操作模型，通过具身无关的可供性表征实现了跨平台的通用操作能力，在Franka、Kinova、Realman 和 Dobot等多个机器人平台上进行了验证。相比VLA方法RDT-1B和π0，在复杂操作任务中成功率高出70%，执行步骤仅需4-5步，是VLA方法效率的10倍，相关论文已被ICCV 2025接收，模型框架和代码等已经全面开源。

论文链接： https://arxiv.org/abs/2504.12636 项目主页： https://a-embodied.github.io/A0/

引言：机器人操作面临的核心挑战

在机器人技术飞速演进的时代，赋予机器人通用操作能力依然是行业面临的核心难题。例如“擦拭白板”这类任务，机器人不仅需要明确施力的位置（"where"），更需规划抹布的运动轨迹（"how"）。然而，现有方法在空间可供性（affordance）理解方面依然存在不足。

现有主流研究路线包括：模块化方法与端到端视觉-语言-动作（VLA）大模型。前者借助视觉基础模型来提升空间感知，但在捕捉物体的可供性细节方面有所欠缺；后者虽然能够直接生成动作指令，却难以对空间位置形成深层次认知，因而在如擦拭白板或物体堆叠等复杂任务中表现不佳。

图1. 机器人操作方法对比

机器人操作是机器人技术和具身智能领域中一个基础却极具挑战性的任务，要求机器人在复杂环境中与物体进行交互。近期的研究主要集中在两类方法：（1）基于模块化的方法，利用大型视觉基础模型进行空间理解；（2）端到端的视觉-语言-动作（VLA）方法，用于细粒度操作。然而，现有方法在理解空间可供性——即对象交互的“何处”（where）与“如何”（how）——方面仍存在显著局限，而空间可供性正是实现空间智能的关键。例如，在执行擦拭白板等任务时，对空间可供性的理解不足往往导致执行不完整或效率低下。

空间可供性不仅可以从真实和合成的机器人数据集中学习，还可以从诸如互联网数据和手-物交互（HOI）数据等富含可操作性知识的异域数据中获取。这些数据集包含了关于物体交互、空间属性和物理特性的宝贵信息，因此将可操作性知识表示为统一的空间可供性表示尤为必要。基于模块化的方法，如 ReKep和 MOKA，虽能直接利用视觉大模型（LVM），却缺乏对空间和物理世界的深度理解，尤其在捕捉物体可操作性方面存在不足。另一方面，端到端方法如 RDT 和 π0 直接生成动作，却无法充分理解空间位置，导致在擦白板或堆叠物体等复杂操作任务中的表现不佳。

近年来，一些方法开始认识到空间可供性在机器人操作中的重要性。基于点的方法如 SpatialVLA、Any-point Trajectory Modeling、RoboPoint、Track2Act，以及基于流的方法如 General Flow、Im2Flow2Act，在建模空间交互方面取得了显著进展。然而，这些方法通常侧重于密集的空间表示或完整的轨迹建模（见图 1），计算开销大且依赖于特定机械臂平台。相比之下，我们的方法以对象为中心，仅关注预测待操作物体的接触点和后续轨迹。我们提出了一种具身无关的可供性表示（Embodiment-Agnostic Affordance Representation），用于捕捉对象交互的“何处”与“如何”。这种设计使得方法具身无关，可在不同机器人平台间实现无缝泛化；并且，仅需少量任务特定的标注数据进行微调，即可满足实际部署的高效性与通用性。

为了解决操控任务中空间理解与物理推理的难题，我们提出了 A0——一种专为机器人操作设计的新型可供性感知分层模型。该模型将操作任务分解为两个层次：（1）高层的空间可供性理解；（2）低层的动作执行。模型与系统架构如图 2所示。A0 主要聚焦于高层的空间可供性理解，包括对象接触点和接触后轨迹，以有效地指导低层的动作执行。为了学习基础的定位能力，A0 首先在 100 万条接触点定位数据上进行预训练，随后在带注释的空间轨迹数据集上进行监督微调。这一分层设计使得 A0 能够更有效地应对复杂操作任务，尤其是那些需要空间可供性推理与物理交互的场景。实验结果显示，在 Franka 机械臂上，A0 的平均成功率达到 62.50%；在 Kinova 机械臂上达到 53.75%，均优于现有最强基线。值得注意的是，A0 在擦拭白板等轨迹跟踪任务中的表现也十分稳健，成功率达 45%。

我们的主要贡献如下： 1. 提出具身无关的可供性表示：通过预测面向对象的接触点和后续轨迹，高效捕捉空间可供性；该表示由 100 万条标注数据及高效标注流水线支持。面向点的设计使其高度灵活，易于在不同机器人平台间部署。 1. 设计层次化可供性感知扩散模型 A0：模型首先学习具身无关的可供性表示，然后生成精确的操作动作。为增强空间可供性理解，模型引入了位置偏移注意力（Position Offset Attention）、DiT模块和空间信息聚合层（Spatial Information Aggregation Layer）等关键组件。 1. 在多种机器人平台上验证有效性：我们在 Franka、Kinova、Realman 和 Dobot 等平台上进行了广泛实验，A0 在需要空间可供性推理的复杂任务中（如擦拭白板或放置物体）表现优异，充分展示了其强大的泛化能力与具身无关设计优势。

A0模型的创新突破

图2. A0模型总体图 A0在以下三方面实现了突破： 1. 分层任务分解：将操控流程拆分为高层的可供性理解与底层的动作执行两部分，实现任务的结构化分解； 1. 具身无关设计：输出仅依赖物体接触点与路径，不依赖任何特定机器人硬件； 1. 高效表征学习：通过100万接触点数据的预训练与示例轨迹微调，实现跨平台、跨任务的操作泛化。

技术核心：如何实现空间可供性感知？

A0的技术架构包含两大核心组件：

**1. 具身无关可供性表征 **

研究团队构建了统一的可供性表征，整理整合了来自四类数据源的操作知识：

互联网数据（PixMo-One-Point：100万单接触点标注），从公开的PixMo-Points数据集中筛选出单个点标注的数据得到。
人机交互数据（HO4D-22k：22,000条人-物交互轨迹）
真实机器人数据（DROID-3k：3,000条操作轨迹）
仿真数据（ManiSkill-5k：4,965条仿真轨迹）

这种表征仅包含物体中心的图像、2D路径点和语言指令，实现了跨数据源的统一表示。

**2. 分层扩散模型架构 **

图3. A0模型结构图

模型采用基于DiT的扩散模型，其输入是T×2的高斯噪声，预测机器人操作的T个时间步的2D路径点。使用Qwen2.5-7B和SigLip (400M) 作为语言和图像编码器得到对应的嵌入表示。当前图像和前一步图像经过SigLip的嵌入表示进行拼接。通过交叉注意力交替地输入语言和图像的嵌入表示到DiT层作为扩散模型的条件。

模型包含两大创新模块：

位置偏移注意力（POA）：通过当前帧与前一帧的token差值获取运动信息
空间信息聚合层（SIAL）：将潜在空间映射回物理空间的非线性MLP解码器

训练过程分为两个阶段：

预训练：使用100万规模的PixMo-One-Point数据集，使用MSE损失监督第一个路径点预测
有监督微调：扩展至T个路径点预测，融入运动信息理解

DiT前向和反向过程分别设置为1000和5步。推理阶段采用DPM-Solver求解。

**动作执行 **

基于扩散模型得到的T个2D路径点生成动作。A0 模型的动作生成流程包括三步：

2D→3D 投影对图像上预测的关键点（包括接触点和后续方向提示点），利用深度图和相机内参反投影到三维空间，得到每个点的 3D 坐标。
抓取姿态估计以反投影的接触点为参考，调用 GraspNet 或其他抓取采样器生成一组候选抓取姿态，再挑选最贴近该点的最佳抓取方案。
路径点选择与执行对剩余方向提示关键点同样反投影至三维，并让 VLM例如GPT-4o 判断它们在自由空间中的高度类别（如“与目标平齐”或“高于目标”），最后在 SE(3) 空间内插值生成平滑轨迹，驱动真实机器人完成操作。

实验结果：跨平台验证卓越性能

研究团队在Franka、Kinova、Realman和Dobot四种机器人平台上进行了全面验证：

离线评估：评测A0模型在HOI4D-22k, Maniskill-5k和DROID-3k数据集上预测路径点的准确率，使用像素值MAE指标 (三个数据集的图像分辨率分别是1920×1080, 512×512, and 320×180)。训练集和测试集按照8:2划分。结果如下表所示。预训练能够提升模型对空间物体位置定位能力和泛化能力。消融实验证明了POA和SIAL模块都是有效的，SIAL能够有效地将中间层特征映射为动作的2D路径点。