关键词**:**双臂协调,物体拼装,机器人操作
导 读
本文是对发表于计算机人工智能领域顶级会议 ICML 2025 的论文 BiAssemble: Learning Collaborative Affordance for Bimanual Geometric Assembly 的解读。该论文由北京大学董豪课题组完成,共同第一作者为北京大学计算机学院博士生沈妍和吴睿海。
本文聚焦于双臂机器人协同完成复杂几何碎片拼装任务的问题。论文提出了一种基于点级可供性(point-level affordance)的视觉表征方法,并构建了一个完整的拼装策略框架。该方法不仅能够感知碎片的复杂几何结构,还能学习在长时序操作任务中的双臂协同策略。实验结果表明,该方法具备跨类别的几何泛化能力,并在真实环境中实现了稳定可靠的拼装效果与协作表现。
项目主⻚:
https://sites.google.com/view/biassembly/ 论⽂地址:
https://arxiv.org/pdf/2506.06221 文章代码:
https://github.com/sxy7147/BiAssembly
视频介绍:
01
背 景
形状拼装**(Shape Assembly)**,即将多个零散部件组装为完整物体,是机器人在现实世界中极具应用价值的一项核心能力。根据任务目标和几何特征,形状拼装大致可以分为两个方向:
**家具拼装:**关注功能性部件的组合,例如拼接椅腿和扶手来完成椅子的构建,强调各部件在整体结构中的功能角色。这类任务中,部件往往具有规则、可重复的几何结构,装配步骤相对明确。 * **几何拼装:**则关注如何将形状各异、功能未知的物体碎片还原为完整形状,例如修复摔碎的碗、拼接考古遗址中的陶片、或工业中不规则零件的对接。这类任务不依赖预定义结构,更强调对局部几何关系的理解与操作的灵活性。
本文重点研究后者,即几何拼装任务,它比家具装配面临更大的挑战,主要体现在以下两个方面:
**1. 观测空间更复杂。**如图 1 所示,待拼装的物体碎片具备十分多样化的几何形状,机器人无法依靠部件功能进行参考,而是需要从复杂、无序的碎片几何结构中识别拼接关系与可抓取区域,这是一个极具挑战的几何感知问题。
图 1
**2. 动作空间更高维。**如图 2 所示,几何拼装任务往往涉及长时序操作和高接触密度操作。机器人需要避免抓取裂缝边缘或靠近桌面的区域,并防止两个碎片之间或两个机械臂之间发生碰撞。这要求机械臂策略不仅能精准理解物体、操作物体,还需具备高水平的双臂协同与长程规划能力。
图 2
为了解决上述问题,本文提出了一个全新的双臂几何拼装框架 BiAssembly,核心思想是应用点级可供性(point-level affordance)表示,帮助机器人理解碎片的局部几何特征,预测出利于双臂协同装配的抓取与动作策略,并具备跨物体类别的泛化能力。我们同时构建了一个模拟双臂拼合物体的仿真平台,和一个包含多类别碎片形状的现实世界数据集,使模型既能在虚拟环境中高效训练,也能顺利迁移至真实机器人平台。
02
方 法
在几何拼装任务中,机器人不仅要面对形状各异的碎片和长时序的拼装过程,还需解决双机械臂之间可能出现的干涉与碰撞问题。传统策略往往难以胜任这一复杂任务,例如:机械臂抓取点选择不合理,导致碎片握持不稳;抓取位置过于靠近碎片缝隙,机械臂阻碍碎片后续对齐与拼合;操作过程中,机械臂之间或机械臂与物体之间发生碰撞,导致拼装失败。
我们从人类拼装碎片的直觉中汲取灵感,发现该任务可以被自然地划分为三个核心步骤:拾取(pick-up)、对齐(alignment)和拼合(assembly)。具体来说,人类在拼装碎片时,通常会先拾起两个碎片,观察其断裂缝隙的形状,尝试将它们在合适的方向上对齐,然后缓慢将碎片推近,实现精确拼接。
基于这一观察,本文提出了一个面向双臂协同几何拼装任务的统一框架 BiAssembly(见图3)。该框架通过明确分解任务流程,逐步建模每一步的动作可行性与双臂协同性。
**拼合步骤:**模型预测不会导致部件碰撞的安全拼合方向; * **对齐步骤:**将目标装配状态变换为从当前初始姿态出发、机械臂可达且无碰撞的中间姿态; * **拾取步骤:**模型学习具备协同性的点级可供性(point-level affordance)感知,不仅判断抓取点是否稳定,还预测其是否利于后续拼装动作的顺利执行。
图 3
1. 拼合方向预测:从反向拆解推理拼合方向
人类通常会先将两个碎片对准裂缝,再缓慢靠近完成拼合。我们将这一过程形式化为“对齐→拼合”两步。为了使机器人学习这一策略,我们可以从反向入手,从“完整物体”的可行拆解方向出发,反推碎片的安全拼合方向。
具体而言,我们基于构想中的完整物体形状,预测多个物理上可行的拆解方向。这些方向表示将碎片安全分离的路径,其反方向即构成机器人在拼合碎片时的候选拼合方向,能够有效降低装配过程中的碰撞风险。值得注意的是,一组碎片的可行拆解方向集合是由其断裂几何结构固有决定。因此,我们可以从以物体为中心的视角(object-centric)出发,预测任意姿态下的物体拆解方向,从而降低模型学习的复杂度。
同时我们观察到:当碎片整体旋转时,其可行拆解方向也会同步旋转,始终保持与姿态变换一致。这一性质在数学上表现为 SO(3) 等变性(equivariance),使模型在学习时能够有效解耦几何形状与姿态变化,提升学习效率和泛化能力。为了充分利用这一属性,我们采用了具备 SO(3) 等变性的神经网络模型——VN-DGCNN,提取旋转等变的几何特征表示,最终用于预测安全、可执行的拼合方向。
2. 对齐姿态预测:规划可达、无碰撞的中间状态
在上一阶段,我们获得了理想的、无碰撞的拼合方向。然而,在实际操作中,碎片的初始位置往往相距较远、方向凌乱,若直接按照该方向进行拼合,可能会因机械臂运动不可达或碎片碰撞而导致失败。因此,我们引入对齐姿态(alignment poses)的概念:在最终拼合前,机器人需先将两个碎片从初始状态移动至一个更容易操作、且不会发生碰撞的中间姿态,再从该姿态完成最终装配。例如,我们希望位于左侧的碎片在装配过程中仍由左臂控制,并向中间推进,而不是发生两臂交叉操作,这种情况往往容易造成机械臂之间的干涉或碰撞。
这一问题可以形式化为:预测一个 SE(3) 空间变换矩阵( ),将前一步中预测出的拼合方向以及构想中的完整拼合物体形状,通过该矩阵共同变换为目标对齐状态。为此,我们设计了一个 SE(3) 位姿变换预测器,输入为当前碎片的点云观测以及拼合方向,通过条件变分自编码器(cVAE)结构输出变换矩阵 。该模块能够学习将碎片从任意初始状态变换至可达、无碰撞的对齐姿态,为后续装配提供安全、稳定的操作前置条件。
3. 协同可供性预测:面向长时序拼装的抓取决策
在双臂装配任务中,抓取点的选择不仅影响握持的稳定性,更直接决定后续操作的可执行性与协同性。为此,我们提出了一种面向双臂操作的协同可供性预测器,不仅判断“是否能抓”,更关注“是否有利于后续的对齐与拼合”。
我们将双臂动作分解为两个条件化模块:首先预测第一个机械臂的抓取点与姿态;然后在其基础上,再预测第二只手的动作,确保两者在整个拼装过程中始终互不干涉、协同顺畅。与传统方法仅关注当前步骤是否能成功抓取不同,我们将整个拼装过程的成功率作为监督信号,引导模型学习有助于完成完整任务的抓取动作。最终,我们实现了一个具备长时序协同能力与点级可供性感知能力的模型,不仅提升了抓取动作的全局合理性,也提高了双臂协同装配的成功率和执行效率。
03
实验结果
**仿真实验:**我们基于 SAPIEN 仿真模拟器,使用 Breaking Bad 数据集构建了碎片拼装任务环境,任务涵盖 15 个类别、445 个物体和 11,820 对碎片组合,其中 10 个类别用于训练,剩余 5 个类别仅用于测试,用于评估模型在类别级泛化上的表现。
图 4
如图 4 所示,我们展示了模型预测的协同可供性图以及机器人双臂操作碎片的动作序列,覆盖了训练集中的新实例与完全未见的测试类别。从结果可观察到,预测出的可供性图能够感知碎片的几何结构,突出标记出适合抓取的位置,同时有效避开靠近桌面的区域,降低夹爪与台面发生碰撞的风险。此外,模型还考虑到了后续对齐与拼装阶段的可行性,避免在裂缝附近抓取,防止拼合过程中的碰撞干扰。实验表明,BiAssembly 不仅在训练类别上表现稳定,还具备良好的新形状与跨类别的泛化能力。
**真机实验:**我们搭建了一个由两台 Franka Panda 机械臂组成的真实操作环境。此外,我们构建了一个涵盖多类常见物体的现实碎片数据集(见图 1)。该数据集包含酒杯、盘子、啤酒瓶、碗、马克杯和茶壶等多种类别,涵盖了形状、尺寸、几何结构及材质透明度等多样化特征,为不同方法的性能评估提供了统一且标准化的测试基础。
如图 5 和图 2.C 所示,我们将 BiAssembly 方法在真实场景中的表现进行了可视化,实验结果表明该模型具有良好的现实环境泛化能力。更多的真机操作视频与模型预测可视化结果可以在项目网站上进行查看。
图 5
04
总 结
我们应用点级可供性在几何泛化方面的能力,提出了一种兼顾任务泛化性与双臂协作性的几何拼装方法,能够应对具有长时序操作与复杂碎片结构的几何拼装任务。此外,我们构建了一个涵盖多类物体、具备形状多样性与可复现性的现实世界数据集。在多类别、多物体的仿真与真实实验中,BiAssembly 在拼合成功率和协作合理性方面均优于其他方法,并展现出良好的跨物体与跨类别泛化能力。