Developing robust and general-purpose manipulation policies represents a fundamental objective in robotics research. While Vision-Language-Action (VLA) models have demonstrated promising capabilities for end-to-end robot control, existing approaches still exhibit limited generalization to tasks beyond their training distributions. In contrast, humans possess remarkable proficiency in acquiring novel skills by simply observing others performing them once. Inspired by this capability, we propose ViVLA, a generalist robotic manipulation policy that achieves efficient task learning from a single expert demonstration video at test time. Our approach jointly processes an expert demonstration video alongside the robot's visual observations to predict both the demonstrated action sequences and subsequent robot actions, effectively distilling fine-grained manipulation knowledge from expert behavior and transferring it seamlessly to the agent. To enhance the performance of ViVLA, we develop a scalable expert-agent pair data generation pipeline capable of synthesizing paired trajectories from easily accessible human videos, further augmented by curated pairs from publicly available datasets. This pipeline produces a total of 892,911 expert-agent samples for training ViVLA. Experimental results demonstrate that our ViVLA is able to acquire novel manipulation skills from only a single expert demonstration video at test time. Our approach achieves over 30% improvement on unseen LIBERO tasks and maintains above 35% gains with cross-embodiment videos. Real-world experiments demonstrate effective learning from human videos, yielding more than 38% improvement on unseen tasks.


翻译:开发鲁棒且通用的操作策略是机器人研究的一项基本目标。尽管视觉-语言-动作(VLA)模型已展现出端到端机器人控制的潜力,但现有方法在泛化至训练分布之外的任务时仍存在局限。相比之下,人类仅需观察他人执行一次即可高效掌握新技能。受此能力启发,我们提出ViVLA——一种通用机器人操作策略,能够在测试时仅通过单次专家演示视频实现高效任务学习。该方法联合处理专家演示视频与机器人视觉观测,以同时预测演示动作序列及后续机器人动作,从而从专家行为中提取细粒度操作知识并无缝迁移至智能体。为提升ViVLA性能,我们开发了可扩展的专家-智能体配对数据生成流程,能够从易获取的人类视频中合成配对轨迹,并进一步通过公开数据集的精选配对进行增强。该流程共生成892,911个专家-智能体样本用于训练ViVLA。实验结果表明,我们的ViVLA能够在测试时仅通过单次专家演示视频学习新操作技能。该方法在未见过的LIBERO任务上实现超过30%的性能提升,并在跨具身视频中保持35%以上的增益。真实世界实验验证了从人类视频中有效学习的能力,在未见任务上取得超过38%的改进。

0
下载
关闭预览

相关内容

自生成兵棋AI:基于大型语言模型的双层Agent任务规划
专知会员服务
89+阅读 · 2024年4月11日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员