While Vision-Language-Action models (VLAs) are rapidly advancing towards generalist robot policies, it remains difficult to quantitatively understand their limits and failure modes. To address this, we introduce a comprehensive benchmark called VLA-Arena. We propose a novel structured task design framework to quantify difficulty across three orthogonal axes: (1) Task Structure, (2) Language Command, and (3) Visual Observation. This allows us to systematically design tasks with fine-grained difficulty levels, enabling a precise measurement of model capability frontiers. For Task Structure, VLA-Arena's 170 tasks are grouped into four dimensions: Safety, Distractor, Extrapolation, and Long Horizon. Each task is designed with three difficulty levels (L0-L2), with fine-tuning performed exclusively on L0 to assess general capability. Orthogonal to this, language (W0-W4) and visual (V0-V4) perturbations can be applied to any task to enable a decoupled analysis of robustness. Our extensive evaluation of state-of-the-art VLAs reveals several critical limitations, including a strong tendency toward memorization over generalization, asymmetric robustness, a lack of consideration for safety constraints, and an inability to compose learned skills for long-horizon tasks. To foster research addressing these challenges and ensure reproducibility, we provide the complete VLA-Arena framework, including an end-to-end toolchain from task definition to automated evaluation and the VLA-Arena-S/M/L datasets for fine-tuning. Our benchmark, data, models, and leaderboard are available at https://vla-arena.github.io.


翻译:尽管视觉-语言-动作模型(VLAs)正快速向通用机器人策略发展,但定量理解其局限性和失效模式仍然困难。为此,我们引入了一个名为VLA-Arena的综合基准。我们提出了一种新颖的结构化任务设计框架,用于量化三个正交维度上的难度:(1)任务结构,(2)语言指令,以及(3)视觉观察。这使得我们能够系统性地设计具有细粒度难度级别的任务,从而实现对模型能力边界的精确测量。在任务结构方面,VLA-Arena的170个任务被分为四个维度:安全性、干扰物、外推和长视野。每个任务都设计了三个难度级别(L0-L2),并仅在L0上进行微调以评估通用能力。与此正交的是,语言(W0-W4)和视觉(V0-V4)扰动可以应用于任何任务,以实现鲁棒性的解耦分析。我们对最先进的VLAs进行的广泛评估揭示了若干关键局限性,包括强烈的记忆化倾向而非泛化能力、非对称的鲁棒性、对安全约束缺乏考虑,以及无法为长视野任务组合已学技能。为了促进应对这些挑战的研究并确保可复现性,我们提供了完整的VLA-Arena框架,包括从任务定义到自动化评估的端到端工具链,以及用于微调的VLA-Arena-S/M/L数据集。我们的基准、数据、模型和排行榜可在 https://vla-arena.github.io 获取。

0
下载
关闭预览

相关内容

【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员