Recent Vision-Language-Action (VLA) models have made impressive progress toward general-purpose robotic manipulation by post-training large Vision-Language Models (VLMs) for action prediction. Yet most VLAs entangle perception and control in a monolithic pipeline optimized purely for action, which can erode language-conditioned grounding. In our real-world tabletop tests, policies over-grasp when the target is absent, are distracted by clutter, and overfit to background appearance. To address these issues, we propose OBEYED-VLA (OBject-centric and gEometrY groundED VLA), a framework that explicitly disentangles perceptual grounding from action reasoning. Instead of operating directly on raw RGB, OBEYED-VLA augments VLAs with a perception module that grounds multi-view inputs into task-conditioned, object-centric, and geometry-aware observations. This module includes a VLM-based object-centric grounding stage that selects task-relevant object regions across camera views, along with a complementary geometric grounding stage that emphasizes the 3D structure of these objects over their appearance. The resulting grounded views are then fed to a pretrained VLA policy, which we fine-tune exclusively on single-object demonstrations collected without environmental clutter or non-target objects. On a real-world UR10e tabletop setup, OBEYED-VLA substantially improves robustness over strong VLA baselines across four challenging regimes and multiple difficulty levels: distractor objects, absent-target rejection, background appearance changes, and cluttered manipulation of unseen objects. Ablation studies confirm that both semantic grounding and geometry-aware grounding are critical to these gains. Overall, the results indicate that making perception an explicit, object-centric component is an effective way to strengthen and generalize VLA-based robotic manipulation.


翻译:近期的视觉-语言-动作模型通过在大规模视觉-语言模型上进行动作预测的后训练,在通用机器人操作方面取得了显著进展。然而,大多数视觉-语言-动作模型将感知与控制耦合在单一、纯粹为动作优化的流程中,这可能削弱语言条件感知的准确性。在我们真实的桌面测试中,策略在目标缺失时会出现过度抓取、被环境杂物干扰,并过度拟合背景外观。为解决这些问题,我们提出了OBEYED-VLA(基于物体中心与几何感知的视觉-语言-动作模型),该框架明确地将感知定位与动作推理解耦。OBEYED-VLA并非直接处理原始RGB图像,而是通过一个感知模块增强视觉-语言-动作模型,该模块将多视角输入转换为任务条件化、物体中心化且几何感知的观测表示。该模块包含一个基于视觉-语言模型的物体中心感知阶段,用于跨相机视角选择任务相关的物体区域,以及一个互补的几何感知阶段,强调这些物体的三维结构而非其外观特征。生成的感知视图随后输入到预训练的视觉-语言-动作策略中,该策略仅使用在无环境杂物或非目标物体情况下收集的单物体演示数据进行微调。在真实世界的UR10e桌面实验平台上,OBEYED-VLA在四种具有挑战性的场景及多个难度级别上显著提升了鲁棒性,超越了现有强视觉-语言-动作基线模型:干扰物体处理、目标缺失拒绝、背景外观变化以及未见物体的杂乱环境操作。消融实验证实,语义感知与几何感知对于性能提升均具有关键作用。总体而言,研究结果表明,将感知构建为显式的、以物体为中心的组件,是增强并泛化基于视觉-语言-动作模型的机器人操作能力的有效途径。

0
下载
关闭预览

相关内容

专知会员服务
65+阅读 · 2021年4月11日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员