Robust robotic manipulation requires reliable failure detection and recovery. Although current Vision-Language Models (VLMs) show promise, their accuracy and generalization are limited by the scarcity of failure data. To address this data gap, we propose an automatic robot failure synthesis approach that procedurally perturbs successful trajectories to generate diverse planning and execution failures. This method produces not only binary classification labels but also fine-grained failure categories and step-by-step reasoning traces in both simulation and the real world. With it, we construct three new failure detection benchmarks: RLBench-Fail, BridgeDataV2-Fail, and UR5-Fail, substantially expanding the diversity and scale of existing failure datasets. We then train Guardian, a VLM with multi-view images for detailed failure reasoning and detection. Guardian achieves state-of-the-art performance on both existing and newly introduced benchmarks. It also effectively improves task success rates when integrated into a state-of-the-art manipulation system in simulation and real robots, demonstrating the impact of our generated failure data.


翻译:鲁棒的机器人操作需要可靠的故障检测与恢复机制。尽管当前视觉语言模型(VLMs)展现出潜力,但其准确性和泛化能力受限于故障数据的稀缺性。为弥补这一数据缺口,我们提出一种自动化的机器人故障合成方法,通过对成功轨迹进行程序化扰动,生成多样化的规划与执行故障。该方法不仅在仿真和现实世界中生成二元分类标签,还能提供细粒度故障类别及逐步推理轨迹。基于此,我们构建了三个新的故障检测基准数据集:RLBench-Fail、BridgeDataV2-Fail和UR5-Fail,显著扩展了现有故障数据集的多样性与规模。随后,我们训练了Guardian——一种采用多视角图像进行细粒度故障推理与检测的视觉语言模型。Guardian在现有及新引入的基准测试中均实现了最先进的性能。当集成至仿真和真实机器人的先进操作系统中时,该模型能有效提升任务成功率,充分证明了我们生成的故障数据的重要价值。

0
下载
关闭预览

相关内容

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
专知会员服务
18+阅读 · 2024年4月10日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员