While imitation learning has shown impressive results in single-task robot manipulation, scaling it to multi-task settings remains a fundamental challenge due to issues such as suboptimal demonstrations, trajectory noise, and behavioral multi-modality. Existing skill-based methods attempt to address this by decomposing actions into reusable abstractions, but they often rely on fixed-length segmentation or environmental priors that limit semantic consistency and cross-task generalization. In this work, we propose AtomSkill, a novel multi-task imitation learning framework that learns and leverages a structured Atomic Skill Space for composable robot manipulation. Our approach is built on two key technical contributions. First, we construct a Semantically Grounded Atomic Skill Library by partitioning demonstrations into variable-length skills using gripper-state keyframe detection and vision-language model annotation. A contrastive learning objective ensures the resulting skill embeddings are both semantically consistent and temporally coherent. Second, we propose an Action Generation module with Keypose Imagination, which jointly predicts a skill's long-horizon terminal keypose and its immediate action sequence. This enables the policy to reason about overarching motion goals and fine-grained control simultaneously, facilitating robust skill chaining. Extensive experiments in simulated and real-world environments show that AtomSkill consistently outperforms state-of-the-art methods across diverse manipulation tasks.


翻译:尽管模仿学习在单任务机器人操作中已展现出令人瞩目的成果,但由于次优演示、轨迹噪声和行为多模态等问题,将其扩展到多任务场景仍是一个根本性挑战。现有的基于技能的方法试图通过将动作分解为可重用的抽象来解决这一问题,但它们通常依赖于固定长度的分割或环境先验,这限制了语义一致性和跨任务泛化能力。在本研究中,我们提出了AtomSkill,一种新颖的多任务模仿学习框架,它学习并利用一个结构化的原子技能空间来实现可组合的机器人操作。我们的方法基于两个关键的技术贡献。首先,我们通过使用夹爪状态关键帧检测和视觉语言模型标注,将演示分割为可变长度的技能,从而构建了一个语义接地的原子技能库。对比学习目标确保生成的技能嵌入既具有语义一致性,又保持时间连贯性。其次,我们提出了一个带有关键姿态想象的行动生成模块,该模块联合预测技能的长期终端关键姿态及其即时动作序列。这使得策略能够同时推理宏观运动目标和细粒度控制,从而促进鲁棒的技能链式执行。在模拟和真实环境中的大量实验表明,AtomSkill在多种操作任务上始终优于最先进的方法。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员