摘要——视觉-语言-动作模型正推动机器人技术发生革命性变革,使机器能够理解指令并与物理世界交互。该领域涌现出众多新模型与数据集,发展迅猛,令人振奋的同时也带来了难以紧跟的挑战。本综述旨在为VLA领域提供一份清晰且结构化的指南。我们按照研究者的自然学习路径来设计全文结构:从剖析任何VLA模型的基础模块入手,追溯其发展历程中的关键里程碑,进而深入探究界定当前研究前沿的核心挑战。我们的主要贡献在于对五大挑战的详细剖析:(1)表征,(2)执行,(3)泛化,(4)安全,以及(5)数据集与评估。此结构映射了通用智能体的发展路线图:建立基础的感知-行动循环,在不同载体与环境中扩展能力,最终确保可信赖的部署——这一切都离不开关键的数据基础设施支撑。针对每一方面,我们梳理了现有方法并展望了未来机遇。本文既是面向初学者的基础指南,也是为经验丰富的研究者提供的战略路线图,旨在双重加速具身智能领域的学习进程并激发新思想。本综述的动态版本将持续更新,维护于我们的项目页面。 索引术语——视觉-语言-动作模型,人工智能,具身智能,机器人技术,基础模型
1 引言
开发能够在真实人类环境中操作的通用机器人,是人工智能领域的核心目标之一。近年来,一种新方法已成为实现该目标最有希望的路径之一:视觉-语言-动作模型。通过连接视觉、语言与物理动作,这些模型推动了该领域的快速发展,使得具身智能领域既充满活力又日益复杂。 为了帮助厘清这一快速发展的领域,近期涌现出大量从不同视角审视该领域的综述论文。一方面,部分工作针对特定技术子领域提供了聚焦、深入的评述,例如动作表征[1]、高效训练范式[2]与后训练方法[3],为读者理解单个系统组件提供了细致的见解。另一方面,更广泛的综述[4]–[9]则提供了全面的系统概述。这类工作通常扮演结构化分类法的角色,依据模型架构、输入模态或训练目标对VLA领域进行梳理,为读者系统性地列出核心组件。 然而,我们发现现有研究存在两个关键缺口,本综述旨在对此进行填补。首先,现有综述通常将研究挑战置于文末的结论部分——仅仅作为论文结尾处的高层概述。该领域仍缺乏一个将这些挑战置于核心地位,并对其进行系统性分解、比较不同解决路径、以及为未来工作指明清晰方向的统一资源。对于旨在做出新颖贡献的研究者而言,仅仅罗列问题是不够的;他们需要的是对问题空间进行深入、结构化的分析。其次,多数综述的结构并未反映研究者学习一个新领域的自然路径。大多数现有工作仅仅是按类别(例如,将基于视觉的方法归为一章,控制策略归为另一章)罗列和分组方法。这种方式虽便于快速查阅,却呈现了该领域的碎片化图景。它提供了大量信息,却未能阐明这些部分如何整合到一个连贯且不断演进的研究脉络中。因此,这类综述未能沿着一条清晰、递进的学习轨迹,引导新人从基础概念走向最新突破。 本综述为填补这些缺口做出了两项核心贡献。我们的首要贡献是对VLA研究中的核心挑战进行了深入且系统性的分析。我们的挑战分析并非作为一个简短的结语出现,而是构成了本综述的核心支柱。我们依据VLA的发展路线图,识别出五大关键挑战:(1)多模态对齐与物理世界建模,(2)指令遵从、规划与鲁棒实时执行,(3)从泛化到持续适应,(4)安全性、可解释性与可靠交互,(5)数据构建与基准测试标准。对每一项挑战,我们都深入评述了现有的不同解决方案,并勾勒出未来研究的具体方向。我们的目标有两个:一是帮助研究者高效梳理海量的现有工作;二是将本部分内容定位为直接催生新颖研究想法的催化剂。 我们的第二项贡献在于本综述的独特结构,其设计旨在反映研究者自然的学习历程。我们有意将本综述构建为一个循序渐进的路线图。我们从详细分解构成任何VLA模型的基础模块开始,建立起共同的术语体系。接着,我们通过关键里程碑追溯其历史演进,为理解该领域如何发展至当前状态提供背景。这一旅程最终导向我们对核心挑战的深入剖析,展示最新趋势并指出未来方向。这种结构使新人能够从零开始构建专业知识,同时也便于经验丰富的研究者直接查阅与其兴趣最相关的部分。本综述的结构如图1所示。本工作设计为一项持续更新的资源,项目页面将不断更新以反映研究前沿的进展。