摘 要 具身智能系统通过智能体与环境不断交互,从而提升智能体能力,受到了学术界和产业界的广泛关注。视觉-语言-动 作模型作为一种受到大模型发展启发的机器人通用控制模型,提高了具身智能系统中智能体与环境交互的能力,大大扩展了 具身智能机器人的应用场景。本文对具身操作中的视觉-语言-动作模型进行了综述,首先,详细介绍了视觉-语言-动作模型的 发展历程,然后,对视觉-语言-动作模型架构、训练数据、预训练方法、后训练方法和模型评估 5 个方面的研究现状进行了详 细地分析,最后,针对视觉-语言-动作模型发展过程和机器人操作落地应用中面临的挑战和未来可能的发展方向进行了总结。 关键词 具身智能, 视觉-语言-动作模型, 机器人, 基础模

近年来,具身智能受到了学术界和产业界的广 泛关注。相比于传统的互联网智能或离身智能从数 据中获取智能,具身智能系统通过控制“本体”与 环境交互,从而获得智能。作为具身智能“本体”的 典型代表之一,操作机器人通过控制机械臂与环境 进行交互完成抓放、搬运等任务,在工业生产中广 泛应用。传统的机器人系统通常由多个不同的模型 组合构成,例如感知模型通过处理传感器数据获取 环境状态和操作对象状态,决策模型则根据当前的 状态确定操作目标。接收到决策目标后,规划模型 根据机械臂与环境状态规划可行路径,最后由控制 模型控制机械臂跟踪该路径以完成任务。这种模块 化的机器人系统可以从各个模块的发展中受益,并 且具有良好的可解释性。但是当操作机器人推广到 日常生活中,基于逻辑编排的决策模块和基于搜索 或优化的规划与控制模块很难应对开放环境下多样 性任务需求以及复杂的交互行为随着大语言模型(Large Language Model, LLM) 和视觉语言模型(Vision Language Model, VLM)的 兴起,以 Transformer[6]结构为核心的基础模型展现 出了强大的泛化能力,机器人技术也迎来了新的发 展机遇。通过大模型强大的视觉理解能力和自然语 言理解能力,机器人在任务规划和开放环境适应性 方面取得了显著进步。例如,机器人可以通过 VLM 识别物体并根据语言指令规划路径,从而在一定程 度上应对环境的多变性和任务的多样性。然而,这 种模式存在语义理解与物理执行的割裂。大模型主 要承担环境理解和规划层功能,无法理解机器人的 执行能力。然而大模型规划的动作需依赖预编程的 下层控制器,导致机器人任务理解与执行出现脱节, 无法实现复杂的动作行为。 相比于传统多模块解耦系统容易受到模块短板 效应的影响,视觉模仿学习通过直接建立视觉图像 与机器人动作之间的映射关系,从而可以实现更灵 活的机器人运动控制。但是早期的方法大部分局限 在特定任务或数据上,往往难以适应新任务或多变 的环境,限制了机器人在复杂场景中的应用潜力。 随着大模型技术的快速发展,LLM 和 VLM 展优秀的语义理解和泛化能力,让实现开放环境下的 通用机器人策略成为可能。视觉-语言-动作(Vision Language Action, VLA)模型通过结合大模型技术, 将视觉感知、语义推理与动作生成深度融合,使机 器人能够直接从多模态输入中预测连续控制指令, 实现从环境理解到物理执行的闭环耦合。目前,以 VLA 为核心的机器人系统在开放指令抓取、柔性物 体操作、双臂协作、以及多机器人协作等领域展现 出令人印象深刻的性能,大大提高了人们对于机器 人任务的想象力。

从发展历程看,VLA 的发展很大程度上受到了 大模型发展的启发。白辰甲 等[7] , 王文晟 等[8]详细 分析了大模型在具身智能系统的感知,规划,决策, 数据生成等方面发挥的作用。Ma et al.[1]对 2024 年 之前的 VLA 方法进行了整理,综述内容虽然涵盖 了模型的发展历程、模型结构、数据集、训练方法和 模型评估等多个方面,但是一方面由于 2024 年之后 VLA 技术迭代非常快,技术路线与之前已经呈现显 著的差异性,其所阐述的模型结构、数据和训练方 法已不具备代表性。另一方面,该综述只从仿真器 测评基准的角度阐述了 VLA 模型评估,很难适应当 前的应用需求。Sapkota et al.[2]较为全面地从 VLA 概念、发展历程、模型结构、训练方法和 VLA 应用 等多个角度对 2025 年上半年之前的 VLA 模型提供 了全面综述。Zhong et al.[3]从动作空间的角度分析 了目前 VLA 的发展现状,详细阐述了不同动作空 间下 VLA 的实现方式,局限性和未来趋势。Xiang et al.[4]从人类运动学习的角度,对于 VLA 模型的 后训练方法进行了梳理与分析。Din et al.[5]梳理了 VLA 模型结构和发展历程,并对 VLA 训练数据进 行了详细的阐述,并且通过成功率和零样本泛化能 力对当前 VLA 模型进行了定性评估。与上述工作不 同的是,本文从具身智能系统的角度出发,针对环 境、本体和进化算法三个具身系统的核心要素,从 模型结构、训练所使用的数据集、预训练方法、后训 练方法以及模型评估 5 个方面,审视目前 VLA 的 发展现状,深入剖析 VLA 模型的核心构成,阐述每 个部分在具身操作场景下面临的困境和未来的潜在 发展方向,希望能够为该领域研究人员提供参考和 方向指导。总结来看,本文的贡献如下: • 根据 VLA 发展过程中的特点,本文将 VLA 发 展历程划分成 3 个阶段:萌芽阶段,VLA 概念 尚未形成,但已经出现相似功能的模型;探索 阶段,VLA 模型架构“百花齐放”,但逐渐确 立了以 Transformer 为核心的可扩展骨干结构; 快速发展阶段,模型架构从单层往多层方向发 展,并且随着数据积累,多模态 VLA 模型已经 “崭露头角”。 • 根据数据类型和数据使用方式的不同,本文将 VLA 模型预训练方法划分为 4 种:单一领域数 据预训练、跨域分阶段训练、跨域数据联合训 练以及思维链增强。单一领域数据预训练方法 是当前 VLA 常用预训练方法,但局限性比较明 显,跨域数据联合训练和思维链增强具有较大 的发展潜力。 • 本文将 VLA 模型后训练方法划分为 3 类:监 督微调,目前 VLA 后训练的主要手段,在泛 化性和持续学习能力方面面临挑战;强化微调, 作为一种交互和奖励驱动的主动学习方法,具 备一定的发展潜力,但尚未形成里程碑式工作; 推理扩展,不需要额外的数据训练,但需要消 耗时间换取性能,面临速度与性能折中。 • 本文弥补了当前综述工作中对于 VLA 模型评 估工作的欠缺,从真实环境评估、仿真器评估 和世界模型评估三个方面,全面剖析目前 VLA 模型评估现状与需求的鸿沟。

成为VIP会员查看完整内容
0

相关内容

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
视觉识别中的可解释性综述
专知会员服务
21+阅读 · 7月17日
视觉通用模型综述
专知会员服务
28+阅读 · 6月12日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
25+阅读 · 3月6日
不平衡数据学习的全面综述
专知会员服务
42+阅读 · 2月15日
大模型技术的军事应用综述
专知会员服务
125+阅读 · 2024年12月6日
大型语言模型的景观:范式与微调策略的全面综述和分析
专知会员服务
46+阅读 · 2020年12月4日
基于深度学习的手语识别综述
专知会员服务
47+阅读 · 2020年5月18日
专知会员服务
234+阅读 · 2020年5月6日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
基于深度学习的数据融合方法研究综述
专知
34+阅读 · 2020年12月10日
事件知识图谱构建技术与应用综述
专知
25+阅读 · 2020年8月6日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
477+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
视觉识别中的可解释性综述
专知会员服务
21+阅读 · 7月17日
视觉通用模型综述
专知会员服务
28+阅读 · 6月12日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
25+阅读 · 3月6日
不平衡数据学习的全面综述
专知会员服务
42+阅读 · 2月15日
大模型技术的军事应用综述
专知会员服务
125+阅读 · 2024年12月6日
大型语言模型的景观:范式与微调策略的全面综述和分析
专知会员服务
46+阅读 · 2020年12月4日
基于深度学习的手语识别综述
专知会员服务
47+阅读 · 2020年5月18日
专知会员服务
234+阅读 · 2020年5月6日
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
基于深度学习的数据融合方法研究综述
专知
34+阅读 · 2020年12月10日
事件知识图谱构建技术与应用综述
专知
25+阅读 · 2020年8月6日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员