近来,大语言模型(LLM)内在推理能力的进展催生了基于 LLM 的智能体系统,这类系统在多种自动化任务上展现出接近人类的性能。然而,尽管它们都依赖 LLM,不同的智能体推理框架会以不同方式引导并组织推理过程。为此,本文提出一种系统化的分类体系,对智能体推理框架进行拆解,并通过跨场景对比其应用来分析这些框架如何在框架层面主导推理。具体而言,我们提出一种统一的形式化语言,将智能体推理系统进一步划分为单智能体方法、基于工具的方法和多智能体方法。随后,我们全面综述它们在科学发现、医疗健康、软件工程、社会仿真与经济学等关键应用场景中的实践。我们还分析各类框架的特征,并总结不同的评估策略。我们的综述旨在为研究社区提供一幅全景式图景,帮助理解不同智能体推理框架的优势、适用场景与评测实践。
大语言模型(LLM)凭借其强大的泛化能力与可观的推理能力,正在迅速重塑从日常生活(如创意构思、邮件撰写或学习新概念)到特定领域研究的诸多方面 [198]。研究者日益将 LLM 作为核心组件来赋能科研与创新 [166],涵盖从面向领域知识的问答 [310]、代码生成 [118],到辅助科研工作 [164] 等多种任务。通过这些路径,LLM 正在迅速成为现代生活与研究的重要组成部分。
然而,尽管 LLM 在多个领域具有巨大潜力,它们也存在内在局限,可能限制其实用性。例如,LLM 往往面临幻觉、知识过时、训练与推理成本高昂等问题 [111]。这些问题常常导致 LLM 的可靠性与一致性受损,从而限制其在医疗健康与软件工程等对结果可靠性要求极高的关键领域中的应用。
为克服上述障碍,学术界正在积极探索以 LLM 为核心引擎、能够执行复杂多步推理任务的基于 LLM 的智能体推理框架 [217, 266]。如图 1 所示,我们观察到顶级会议论文数量显著上升。最初,“智能体”(Agent)在文献 [227] 中被定义为“通过传感器感知环境并通过执行器对环境采取行动”的系统,能够对环境进行动态适应并采取相应行动 [166]。这一新兴范式有机整合了规划、记忆与工具使用等关键模块,将 LLM 重塑为一个能够感知环境、动态适应并持续行动的任务执行器 [112, 154, 266]。通过纵向延展、横向扩展或逻辑回溯,该范式在可靠性与任务复杂度上,从根本上超越了传统 LLM 的单步推理能力。 这一趋势也在工业界得到广泛回应,科技巨头正积极将智能体工作流融入其核心业务。例如,微软的 AutoGen¹ 被设计用于帮助企业构建定制化的多智能体应用。此外,从深度集成智能体能力的“vibe coding” 编辑器 Cursor² 到自主式 AI 软件工程师 Devin³,基于智能体推理框架的清晰演进正获得广泛认可,并逐步替代传统的开发方式。
然而,与此同时,该领域的爆发式增长也模糊了基于 LLM 的智能体的边界 [305]。例如,与传统多智能体系统 [30, 87, 315] 与自治系统 [255] 等领域概念的交叉,使得研究范围难以界定。与此同时,往往也难以清晰区分:智能体能力的增强究竟源自精心的框架设计、模型层面的改进,还是其他技术进步。这种双重模糊性给不同项目的横向比较带来严峻挑战,并有忽视框架设计在智能体系统推理能力中基础性作用的风险。 因此,我们认为,此时进行一项系统综述,以总结智能体推理框架的最新进展与应用场景,恰逢其时。我们首先明确界定这些框架的边界,并据此提出统一的方法学分类体系。随后,我们进一步分析这些方法在多样化场景中的应用与评测策略,旨在为智能体的发展提供规范化与安全化的清晰路线图。我们的分类法也契合当前诸如“上下文工程”等热门议题。 总体而言,本文的贡献如下: * 据我们所知,这是首个提出统一方法学分类,用以系统性凸显智能体框架中核心推理机制与方法的综述; * 我们采用一种形式化语言来描述推理过程,清晰展示不同方法对关键步骤的影响; * 我们广泛考察了智能体推理框架在若干关键场景中的应用。在这些应用场景中,我们依据所提分类法对代表性工作进行深入分析,并给出相应的数据集与评测设置集合。
本文结构如下:第 §2 章将进一步介绍并比较相关综述与本文的差异。第 §3 章将给出技术分类法,系统分析现有的智能体推理技术。第 §4 章将进一步给出智能体推理框架的应用场景,并介绍各场景中智能体的常见设计。最后,第 §5 章讨论未来方向,第 §6 章给出全文结论。
AI智能体式编程是一种新兴范式,其中大型语言模型(LLMs)能够自主规划、执行,并与编译器、调试器和版本控制系统等外部工具交互,以迭代完成复杂的软件开发任务。 与传统的代码生成工具不同,智能体系统能够分解高层目标、协调多步流程,并基于中间反馈自适应地调整其行为。这些能力正在改变软件开发的实践。随着这一新兴领域的快速发展,有必要明确其研究范围,夯实其技术基础,并识别尚待解决的研究挑战。
本综述对 AI智能体式编程** 进行了全面而及时的回顾。我们提出了一个关于智能体行为和系统架构的分类法,并探讨了包括规划、记忆与上下文管理、工具集成以及执行监控在内的核心技术。我们还分析了现有用于评估代码智能体性能的基准和评价方法。**
我们的研究揭示了若干关键挑战,包括:在处理长上下文方面的局限性、任务间缺乏持久性记忆,以及与安全性、用户意图对齐和与人类开发者协作相关的担忧。同时,我们讨论了在提高智能体系统的可靠性、适应性和透明性方面的前沿机遇。通过综合近期进展并勾勒未来方向,本综述旨在为构建下一代智能、可信赖的 AI编程智能体 提供研究与开发的基础。
随着大型语言模型(LLMs)的兴起,软件开发范式正在发生迅速变化 [73]。这些模型使人工智能(AI)系统不仅能够生成代码 [44],还能够理解任务需求、与开发工具交互,并迭代地优化其输出 [29, 43]。近期研究表明,软件开发者如今已常规性地使用LLMs来辅助日常编码任务 [30, 72, 73]。与传统的代码生成工具 [31] ——它们往往只针对单一提示返回静态代码片段——不同,新兴的AI编程智能体被设计为能够在动态的软件环境中运行,通过执行迭代的、工具增强的任务来实现复杂目标。 这一转变催生了一种新的编程范式,即 AI智能体式编程。在该范式中,基于LLM的编程智能体可以自主地规划、执行并优化软件开发任务 [36, 42]。这些智能体不仅仅是代码补全:它们可以根据自然语言规范生成完整的程序或模块,利用编译器或测试反馈诊断并修复错误,编写并执行测试用例,并对代码进行重构以提升可读性或性能。它们还能够调用并交互外部工具,如编译器、调试器、性能分析器或版本控制系统,从而支持端到端的软件开发工作流。 这种新兴的编程范式有潜力从根本上改变软件的构建与维护方式。例如,一个AI智能体可以从功能的自然语言描述出发,逐步完成代码编写、测试生成与运行、问题分析与修复,直至准备好一个pull request。一些最先进的编程智能体已展示出在保持任务一致性、避免死锁以及从失败操作中恢复的前提下,连续工作数小时的能力 [29, 42]。这些系统能够生成和测试代码,在不同框架之间迁移软件,调试运行时错误,并通过将复杂目标分解为可管理的子任务来集成新特性 [34, 35]。这标志着从静态的一次性AI代码生成向交互式、迭代式、工具增强型工作流的显著转变。 尽管进展迅速,AI智能体式编程仍处于早期阶段。现有系统在架构、自主性、工具集成以及推理能力方面存在差异。目前尚无统一的分类体系、基准测试套件或评估方法。此外,仍有多项关键挑战亟待解决,包括提升可靠性 [73]、减少错误或幻觉 [30]、处理跨平台与跨语言的任务 [81],以及确保这些系统在实际使用中安全可信 [54]。
AI编程智能体的成功在很大程度上依赖于其与外部工具的高效交互能力。然而,当今的编程语言、编译器与调试器从根本上是面向人类的,它们并非为自动化、自主系统而设计。这些工具通常会抽象掉内部状态与决策过程,以提高可用性、保证可移植性并降低人类用户的认知负担 [129, 130]。虽然这种抽象对人类开发者有益,但可能并不适合AI智能体。后者需要对内部状态、转换序列和验证逻辑进行细粒度、结构化的访问,以便推理其操作效果 [33]。缺乏这种访问能力,AI智能体在诊断失败、理解修改的影响或以合理方式恢复错误时会面临困难。例如,当代码转换导致构建失败时,智能体需要的不仅仅是错误消息——它必须能够追溯失败的具体中间步骤,并理解为何修改会引发该问题。现有开发环境并未提供支持这种迭代式、工具集成推理的接口与反馈机制。
同样地,智能体编程系统极大地受益于支持迭代开发、状态追踪和丰富反馈传播的工具链——而大多数传统工具并未暴露这些能力。为了高效运行,AI智能体可能需要访问编译器的内部表示、转换轨迹、符号信息以及执行元数据。这引出了一个根本性问题:在AI智能体式编程的时代,我们现有的编程语言和软件开发工具是否仍然适用?抑或是时候重新思考编程语言、编译器和调试器的设计,以将AI智能体视为开发过程中的一等参与者?
这些挑战表明,AI智能体式编程并不仅仅是现有工具的一种新用法,而是一种变革,它暴露出当今软件系统设计中的重要缺口。随着该领域的快速发展,亟需澄清其概念图景、识别共性模式与系统架构,并评估当前开发生态的适用性。此时正是回顾最新进展、总结经验并提出研究者与开发者需要解决的关键问题的最佳时机。 因此,本综述旨在对AI智能体式编程这一新兴领域进行全面回顾。具体而言,涵盖以下几个方面: * AI编程智能体的概念基础与分类体系; * 核心系统架构与底层技术的综述; * 当前应用与实际使用案例的总结; * 评估策略与基准测试方法的分析; * 关键挑战与当前局限性的讨论; * 未来研究方向的探索,包括跨编程语言、软件工程、人工智能与人机交互等学科视角的交叉融合。
我们主要聚焦于由LLM驱动的软件开发智能体系统,但其中许多见解同样适用于一般的任务型智能体。我们的目标是描绘当前研究版图,澄清基础概念,并支持设计出稳健、高效且值得信赖的AI编程智能体。
摘要:
人工智能(AI)正在重塑科学发现,其角色正从专门的计算工具演化为自主的科研伙伴。我们将**智能体科学(Agentic Science)**定位为“AI for Science”范式中的关键阶段,在这一阶段,AI 系统从部分辅助走向全面的科学自主性。借助大语言模型(LLMs)、多模态系统以及一体化研究平台,智能体化 AI 展现出在假设生成、实验设计、执行、分析与迭代改进等方面的能力——这些行为曾被认为是人类独有的。本综述从生命科学、化学、材料和物理等领域出发,对自主科学发现进行了面向学科的系统性回顾,综合各学科的研究进展与突破。我们通过一个综合框架统一了此前分散的三类视角——过程导向、自主性导向和机制导向——并将其与基础能力、核心过程及领域特定实现联系起来。在该框架的基础上,我们:(i) 追溯 AI for Science 的演进,(ii) 识别支撑科学自主性的五大核心能力,(iii) 将科学发现建模为动态的四阶段工作流,(iv) 回顾其在生命科学、化学、材料科学和物理学中的应用,(v) 综合关键挑战与未来机遇。本研究确立了一个面向学科的自主科学发现综合视角,并将智能体科学定位为推动 AI 驱动科研进步的结构化范式。 关键词: 智能体科学,自主科学发现,自然科学,AI for Science,智能体化 AI,大语言模型
科学发现正经历着一场由人工智能(AI)快速演进所驱动的变革性转变,AI 的角色正在从专门化的工具转向科研合作者。这一进展标志着“AI for Science”范式中的关键阶段,即 AI 系统已从充当面向特定任务的计算“神谕”【121, 306, 339, 42, 87, 281, 351】逐步走向智能体科学(Agentic Science)的兴起(见图 1)【229, 220, 81, 274, 157】。智能体科学指的是“AI for Science”演化中的特定阶段——主要对应图 1 中的第 3 级(完全智能体化发现),其前身是第 2 级(部分智能体化发现)。在这一阶段,AI 作为自主科学智能体,能够独立提出假设、设计并执行实验、解释结果,并以更少的人类依赖性迭代完善理论【229, 22】。这种进展得益于诸如 Intern-Discovery 这样的综合平台(其提供了对多样化 AI 智能体和数据集的访问),以及 Intern-S1 等展现出深度科学推理能力的多模态模型。 这一转变受到基础模型(尤其是大语言模型,LLMs)【82, 256, 351】的最新突破所推动。LLMs 在自然语言理解、复杂推理和工具使用方面提供了前所未有的能力【245, 348, 323, 338, 337】,从而催生出能够超越静态学习流程的 AI 智能体。这类智能体不再仅是被动的模型,而是作为动态的、目标驱动的实体,能够自主探索科学方法【311, 89, 178, 358】。从假设生成【307, 209】,到自主实验【22, 317】,再到合成数据集的构建【150】,这些智能体展现出曾被认为仅属于人类的涌现行为。 与现有综述的比较。 尽管该领域发展迅速,但关于如何理解与设计日益自主化的科学系统,目前仍缺乏统一的框架。现有综述大体可分为三类互补视角。过程导向的综述试图将 LLM 的能力映射到经典的 与现有综述的比较。 尽管研究进展迅速,但关于如何理解和设计日益自主的科学系统,仍缺乏统一框架。现有综述可沿三条互补轴线加以归类:过程导向的视角将 LLM 的能力映射到经典研究循环【172, 352, 39】;自主性导向的研究依据系统的主动性与责任划分等级【346, 293】;机制导向的分析则剖析支撑智能体行为的架构基元及其演化角色【220, 331, 81, 274】。尽管这些工作奠定了重要基础,但仍然碎片化——往往将工作流程、自主性分级或体系结构彼此割裂开来单独考察。 我们的贡献。 有别于既有综述分别从过程、自主性或架构单点切入,本文通过图 2 所示的综合框架对上述视角进行统一与拓展,将自主科学发现中的基础能力—核心过程—领域实现贯通起来。我们围绕生命科学、化学、材料与物理四大领域,给出面向学科的自主科学发现综述,系统综合各学科的研究进展与代表性成果。该统一视角将智能体科学从一个抽象阶段提升为贯穿“能力—过程—应用”的结构化研究范式。我们的具体贡献如下: 1. 绘制 AI for Science 的演进图谱。 我们追溯了从“计算神谕”到“自主科研伙伴”的演进,形式化地将智能体科学界定为 AI 系统展现自主性、目标驱动推理与迭代学习的阶段。 1. 科学智能体的“机理解剖”:五大核心能力。 我们识别并分析科学智能体所需的五项基础能力:(i) 推理与规划,(ii) 工具整合,(iii) 记忆机制,(iv) 多智能体协作,以及 (v) 优化与进化。针对每一项能力,我们回顾最前沿的实现(如【169, 25, 189, 32】)与领域特定挑战。 1. 智能体科学的动态工作流:四个核心阶段。 我们将科学发现建模为由智能体驱动的动态四阶段工作流:(i) 观察与假设生成,(ii) 实验规划与执行,(iii) 数据与结果分析,(iv) 综合、验证与进化。我们强调,智能体可以灵活、动态地组合这些阶段以解决复杂科学问题【12, 22, 74, 73】。 1. 跨自然科学的系统综述。 我们在自然科学四大领域(见图 4:生命科学、化学、材料、物理)系统回顾智能体系统,覆盖十余个细分方向,从药物发现【317】到材料设计【113】,展示了智能体科学的广泛适用性与领域特定创新。 1. 挑战与未来机遇。 我们综合该领域面临的主要技术、伦理与哲学挑战——包括可复现性、新发现的验证与人—智能体协作——并提出研究路线图,以引导稳健、可信且具影响力的科学智能体的未来发展。
通过上述综合,我们旨在为智能体科学奠定概念与方法论基础,引导后续研究走向能够与人类探究共进化的 AI 系统设计,从而加速科学发现前沿的推进。
“条条大路通罗马。”
本书揭示并研究了几乎所有现代(人工)智能实践背后的一个共同且基本的问题:如何在高维空间中有效且高效地学习数据的低维分布,并将其转化为一种紧凑而结构化的表征?对于任何智能系统——无论是自然的还是人工的——这样的表征通常都可以视为从外部世界感知到的数据中学习到的 记忆或知识。 本教材旨在为高年级本科生和初入学的研究生系统介绍学习(深度)数据分布表征的数学与计算原理。其主要先修课程包括本科层次的 线性代数、概率/统计和优化。如果读者对 信号处理(特别是稀疏表示与压缩感知)、信息论和反馈控制有一定了解,将有助于更深入地理解本书内容。 编写本书的主要动机在于,近年来作者及其众多同仁在这一领域取得了巨大的进展,致力于建立一种 有原则且严格的框架 来理解深度神经网络,乃至更广义上的智能。本书倡导的演绎方法论,与当前人工智能实践中占主导的 归纳性、试错式方法 形成鲜明对比,并高度互补。对于如此强大的 AI 模型与系统,人们的理解不足导致社会上愈演愈烈的炒作与担忧。我们相信,现在比以往任何时候都更需要认真尝试建立一种有原则的方法来理解智能。本书的宏大目标之一,就是提供坚实的理论与实验证据,表明如今完全可能像研究科学与数学课题一样研究智能。因此,读者也可以将本书视为发展 “智能的数学理论(Mathematical Theory of Intelligence)” 的初次尝试。
在技术层面,本书提出的理论框架有助于弥合长期存在的一大鸿沟:一方面是经典的数据结构建模方法,主要依赖于几何、代数与概率的解析模型(如子空间、高斯分布、方程等);另一方面是“现代”的经验驱动、非参数化建模方法(如深度网络)。事实上,如果认识到它们都试图建模和学习数据分布中的低维结构,这两条看似分离的路线就能够统一,甚至显得自然。从这一角度来看,即便是许多看似毫不相关、在不同领域和不同时期独立发展起来的计算技术,现在也能在一个共同的计算框架下得到更好的理解,并可能从此一起研究。如本书所示,这些技术包括但不限于:信息论与编码理论中的有损压缩编解码、信号处理与机器学习中的扩散与去噪、以及 约束优化中的增广拉格朗日等连续方法。
我们相信,本书提出的统一概念与计算框架将对那些真正希望澄清关于深度神经网络和(人工)智能的神秘与误解的读者极具价值。此外,该框架还旨在为读者提供指导原则,以便在未来开发出更强大、更“真正智能”的系统。 更具体而言,除了总体介绍(第一章)之外,本书的主要技术内容将组织为六个紧密相关的主题(章节): 1. 经典模型:从主成分分析(PCA)、独立成分分析(ICA)、字典学习(DL)等最基本的模型入手。这些模型假设目标低维分布具有线性和独立结构。通过这些在信号处理和压缩感知中得到充分研究的理想化模型,我们引入如何学习低维分布的最基本思想。 1. 压缩作为普遍原理:为将经典模型及其解法推广到更一般的低维分布,我们引入学习此类分布的一个普适计算原理:压缩。事实表明,数据压缩为各种看似不同的经典与现代分布/表征学习方法提供了统一视角,包括 降维、熵最小化、去噪的分数匹配、带失真率的有损压缩 等。 1. 深度神经网络的解释:在这一统一框架下,现代深度神经网络(如 ResNet、CNN、Transformer)都可以在数学上解释为“展开的优化算法”,通过迭代不断改进压缩与表征,即减少编码长度/速率或增加信息量。该框架不仅能解释迄今为止经验驱动的深度网络架构,还能引导出更简单、更高效的新架构。 1. 自动编码与闭环转录框架:为了保证学到的分布表征正确且一致,必须引入由编码器和解码器组成的自编码架构。为使学习系统完全自动与持续改进,我们引入一个强大的 闭环转录框架,使自编码系统能通过编码器与解码器之间的极小极大博弈自我校正,从而自我提升。 1. 作为先验的表征与贝叶斯推理:我们还将研究如何利用学到的数据分布与表征,作为强大的先验或约束,来进行贝叶斯推理,从而促进现代人工智能实践中的几乎所有任务与设置,包括条件估计、补全与高维真实数据(如图像和文本)的生成。 1. 从理论到应用:最后,为了将理论与实践相结合,我们将逐步展示如何在大规模数据集(图像与文本)上有效高效地学习低维分布的深度表征,并将其应用于 图像分类、图像补全、图像分割、图像生成 及文本数据的类似任务。
总而言之,本书的技术内容建立了 经典解析方法与现代计算方法、简单参数化模型与深度非参数化模型、多样的归纳实践与统一的演绎框架 之间的紧密联系。我们将揭示,许多看似无关甚至相互竞争的方法,尽管在不同领域和不同时期独立发展,但它们实际上都在追求同一个目标:发现并利用高维数据中固有的低维分布。 因此,本书将带领读者经历一段完整的旅程:从理论建模,到数学验证,再到计算实现,直至实际应用。 https://ma-lab-berkeley.github.io/deep-representation-learning-book/
具身智能(Embodied AI)旨在发展能够具备物理形态、并能在真实环境中进行感知、决策、行动与学习的智能系统,这为通用人工智能(AGI)的实现提供了一条有前景的路径。尽管经过数十年的探索,具身智能体在开放动态环境中执行通用任务时,仍然难以达到人类水平的智能。近年来,大模型的突破性进展彻底革新了具身智能,显著增强了其在感知、交互、规划与学习方面的能力。 本文对大模型赋能的具身智能进行了全面综述,重点聚焦于自主决策与具身学习。在决策方面,我们探讨了分层决策与端到端决策两类范式:具体而言,大模型如何增强分层决策中的高层规划、低层执行与反馈机制;以及大模型如何提升视觉-语言-行动(Vision-Language-Action, VLA)模型以支持端到端决策。在具身学习方面,我们介绍了主流的学习方法,并深入阐述大模型如何提升模仿学习与强化学习。首次地,我们将**世界模型(World Models)**纳入具身智能的综述,介绍其设计方法及其在增强决策与学习中的关键作用。 尽管该领域已取得了实质性进展,但仍然存在诸多挑战。本文最后对这些挑战进行了讨论,并展望了未来可能的研究方向。 附加关键词与短语:具身智能,大模型,分层决策,端到端,模仿学习,强化学习,世界模型
具身智能(Embodied AI)[209] 旨在发展具备物理形态的智能系统,使其能够在真实环境中进行感知、决策、行动与学习。该领域认为,真正的智能源于智能体与环境的交互,因此为实现通用人工智能(AGI)[184] 提供了一条前景可期的路径。尽管具身智能的探索已经持续了数十年,但要赋予智能体类人水平的智能,使其能够在开放、非结构化且动态的环境中执行通用任务,仍然面临巨大挑战。 早期的具身智能系统[21, 200] 基于符号推理与行为主义,依赖僵化的预编程规则,因而表现出有限的适应性与表层智能。尽管机器人已广泛应用于制造、物流和特定操作,但它们的功能依然局限于可控环境。机器学习[133],尤其是深度学习[99] 的进展,为具身智能带来了重要转折点。基于视觉引导的规划和基于强化学习的控制[173] 显著降低了智能体对精确环境建模的依赖。然而,这些模型往往依赖任务特定的数据集进行训练,在泛化性与可迁移性方面仍然存在不足,限制了其在多样化场景下的适应能力。 近年来,大模型[149, 150, 182, 183] 的突破性进展显著提升了具身智能的能力。凭借更强的感知、交互与规划能力,这些模型为通用型具身智能体[137] 的发展奠定了基础。然而,大模型赋能的具身智能仍处于萌芽阶段,在泛化性、可扩展性以及无缝环境交互方面依旧面临挑战[177]。因此,亟需对近年来大模型赋能具身智能的研究进行全面、系统的综述,以揭示其差距、挑战与机遇,从而推动 AGI 的实现。 通过对相关领域的系统调研,我们发现现有研究分散、主题复杂,但缺乏系统性分类。已有综述大多聚焦于大模型自身,例如大语言模型(LLM)[29, 151, 225] 与视觉语言模型(VLM)[104, 113, 191],而较少关注大模型与具身智能体的协同作用。即便有些综述涉及该方向,它们也往往集中于特定组件,如规划[188]、学习[7, 26, 204]、模拟器[201]与应用[157, 201, 209],而缺乏对整体范式及各组件如何交互以提升智能的系统性分析。此外,一些较早的综述遗漏了最新进展,尤其是自 2024 年以来迅速兴起的视觉-语言-行动(Vision-Language-Action, VLA)模型[117]与端到端决策。例如,综述 [119] 对 VLA 模型进行了详细介绍,但缺少与分层范式的比较以及对学习方法的深入探讨。同时,由于该领域发展迅速,早期的综述[48, 220] 已难以跟上最新研究。 在本文中,我们聚焦于大模型赋能的具身智能中的决策与学习,对相关研究进行分析与分类,厘清最新进展,指出尚存挑战与未来方向,为研究者提供清晰的理论框架与实践指导。我们与相关综述的对比见表1。 本文的主要贡献如下: 1. 从具身智能视角探讨大模型赋能。 在分层决策方面,具身智能涉及高层规划、低层执行与反馈增强,我们据此对相关工作进行回顾与分类。在端到端决策方面,具身智能依赖于 VLA 模型,因此我们综述 VLA 模型及其增强方法。在具身学习方面,我们重点考察模仿学习(IL)与强化学习(RL):在 IL 中,大模型如何赋能策略与网络构建;在 RL 中,大模型如何赋能奖励函数设计与策略网络构建。 1. 全面综述具身决策与具身学习。 本文不仅回顾了大模型赋能下的分层与端到端决策范式并进行对比,还系统性地讨论了具身学习方法,包括模仿学习、强化学习,以及迁移学习与元学习。此外,我们首次将**世界模型(World Models)**纳入具身智能的综述,探讨其在决策与学习中的作用。 1. 采用水平与垂直结合的双重分析方法。 水平分析比较了多种方法,包括不同类型的大模型、分层与端到端决策、模仿学习与强化学习,以及多样化的具身学习策略;垂直分析则追踪核心模型或方法的演化过程,阐述其起源、进展与开放问题。这一双重方法论既提供了宏观综述,也带来了对主流方法的深入洞察。
本文的组织结构如图1所示:第2节介绍具身智能的概念,综述大模型并讨论其通用能力提升,随后分析大模型与具身智能的协同关系。第3节探讨分层决策范式,详细阐述大模型如何增强动态高层规划、低层执行与基于反馈的迭代优化。第4节聚焦端到端决策,先介绍并分解 VLA 模型,再探讨在感知、动作生成与部署效率方面的最新增强,并在最后与分层决策进行系统对比。第5节介绍具身学习方法,特别是大模型增强的模仿学习与强化学习。第6节讨论世界模型及其在具身智能决策与学习中的作用。第7节总结开放挑战与未来前景,第8节给出结论。
2025年的IJCAI(International Joint Conference on Artificial Intelligence) 将于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。
来自IBM和耶鲁的研究人员给出《评估基于LLM的智能体:基础、最佳实践与开放挑战》教程,值得的关注!
概述
大型语言模型(LLM)智能体的快速发展引发了对其评估的日益关注,带来了诸多挑战与机遇。本教程提供了对LLM智能体评估的全面介绍,适合各类背景的参与者,即使他们之前对智能体、LLM、度量标准或基准测试了解较少。 我们将建立基础概念,探讨衡量关键智能体能力的主要基准,包括规划、工具使用、自我反思和记忆。我们将讨论针对不同类型智能体的评估策略,涵盖从基于Web和软件工程到对话式和科学应用的各类智能体。同时,我们还会介绍评估通用智能体的基准和排行榜,涵盖不同技能集。此外,我们还会回顾一些主流的智能体评估开发框架。最后,我们将展示该领域的新兴趋势,识别当前的局限性,并提出未来研究方向。 教程大纲(暂定)
本教程的时长为半天(3.5小时)。 第一部分:LLM智能体评估介绍(20分钟)
前置知识:LLM、智能体、LLM作为评估者、基准测试 * 什么是LLM智能体?它们为什么重要? * 从静态LLM到自主交互系统的转变。 * 为什么可靠的评估对实际部署至关重要?
第二部分:评估基础智能体能力(40分钟)
我们将讨论四大核心智能体能力:规划与多步骤推理、函数调用与工具使用、自我反思和记忆。每项能力的评估内容包括: * 能力概述及其重要性 * 评估该能力的挑战 * 常见评估方法(数据集、度量标准、基准测试)
基准测试示例:
规划与多步骤推理:GSM8K、HotpotQA、PlanBench * 函数调用与工具使用:ToolBench、API-Bank、BFCL * 自我反思:LLF-Bench、LLM-Evolve * 记忆:ReadAgent、MemGPT、StreamBench
第三部分:评估应用特定智能体(45分钟)
我们将回顾一些主要的应用特定智能体。每种类型的智能体评估包括: * 智能体类型概述、范围、任务及其现实应用 * 评估该类型智能体的挑战 * 常见评估方法(数据集、度量标准、环境)
基准测试示例:
Web智能体:MiniWob、WebShop、WebArena * 软件工程智能体:HumanEval、SWE-bench、IT-Bench * 科学智能体:ScienceQA、AAAR-1.0、CORE-Bench * 对话智能体:MultiWOZ、ABCD、τ-Bench
第四部分:通用智能体评估(25分钟)
评估不同技能的智能体,不仅限于特定应用 * 基准测试:GAIA、AgentBench、OSWorld * 聚焦多步骤推理、问题解决与工具使用
第五部分:智能体评估框架(40分钟)
框架作为开发、完善和持续监控的工具 * 当前框架中的评估特性与能力:
多层次粒度 * 数据生成 * A/B比较 * 当前能力中的主要缺口 * 类Gym环境:控制的动态仿真环境
第六部分:关键见解与未来方向(25分钟)
当前趋势:向具有挑战性、现实和实时的基准测试转变 * 未来方向:
使用标准化度量标准进行细粒度评估 * 成本与效率度量 * 扩展与自动化评估 * 安全性与合规性 * 可靠智能体评估在各行业中的应用 * 负责任的AI开发与部署的重要性
第七部分:开放讨论(15分钟)
目标受众与前提条件
本教程将展示当前的最新进展与前沿研究,但也适合入门级听众。 前提条件:
熟悉大型语言模型(LLM)及其能力 * 对智能体的基本了解,包括其角色与功能
本教程最适合以下人群: * 对智能体评估不熟悉的研究人员 * 曾在智能体评估的某个方面有所研究,但不熟悉整体框架的研究人员 * 处理评估挑战的基准开发人员 * 在特定领域应用中部署智能体的从业人员 * 广泛研究LLM智能体当前能力、风险与局限性的研究人员
FM 3-01是美陆军专用的防空反导(AMD)条令出版物,阐述了AMD原则与准则。它描述了防空炮兵(ADA)——陆军专职AMD组成部分及其组织如何准备与实施作战行动。该手册阐释了AMD部队如何支持联合作战与陆军多域作战,涵盖进攻与防御、维稳行动以及民事当局防务支持任务。它讨论了战略、战役和战术层级的战争行动,并从AMD对陆军作战(如FM 3-0所述)及联合防空使命(如JP 3-01所述)的贡献角度定义了AMD行动。FM 3-01为作战部队与机构部队中各级指挥官、参谋、领导及训练人员提供条令指导,并是美国陆军防空炮兵学校课程开发的基础。本手册主要面向ADA领域及陆军/联合部队领导与参谋人员。其他军种与联合组织可通过本手册深入了解陆军AMD作战。
美国防部指令5100.01要求陆军“实施防空反导以支持联合战役并协助夺取空中优势”。FM 3-01描述了ADA——陆军专职AMD组成部分——在规划、协调与执行AMD行动以支持联合及多域作战中的贡献。手册也涉及多国AMD行动,但多数讨论仍指向联合与陆军AMD。防空反导是指为摧毁、压制或削弱敌方空中与弹道导弹威胁对友军及资产效能的直接(主动与被动)防御行动(JP 3-01),包括可能在地面、空中、海上、网络空间与太空采取的行动。AMD是防御性防空体系击败空中与导弹威胁的关键要素。AMD行动通常与整体防空框架内的其他进攻性与防御性防空使命相结合。尽管本手册涉及进攻性防空与被动AMD方面,其重点仍在于主动AMD战术与程序。ADA部队的存在旨在威慑敌方不良行动,击垮其运用空中力量的意志,并在空中摧毁对方。ADA部队由中高空防空(HIMAD)系统(如“爱国者”与“末段高空区域防御系统”(THAAD))以及近程防空(SHORAD)系统(如“机动近程防空系统”(M-SHORAD)、“复仇者”、“哨兵”及“陆基密集阵武器系统”(LPWS))组成。部署的ADA部队通常编组为ADA特遣部队或按任务编组的炮兵连,配备适当数量与组合的能力以满足任务需求。FM 3-01针对当前作战环境,该环境下演进中的空中与导弹威胁将对陆军及联合部队在所有领域构成挑战。在此环境中,ADA部队必须适应并准备在高度竞争的空中领域实施大规模作战行动。FM 3-01为ADA部队提供应对未来冲突的条令方法,阐释了ADA梯队如何支持陆军部队作战的三个阶段:武装冲突以下的竞争、危机与武装冲突。FM 3-01经过重组以提供火力条令的通用方法,并使AMD与火力作战职能保持一致。FM 3-01描述了ADA部队在现行行动中支援陆军机动部队的运用以及与联合和多国AMD伙伴的协同作用。所述系统能力为2025财年前列装部队的型号。引入的关键新能力包括“一体化防空反导作战指挥系统”(IBCS)与M-SHORAD系统。AMD作战逻辑图见导言页xii的附图,该图基本遵循FM 3-0提出的逻辑框架,但从AMD视角展示内容。
FM 3-01包含六章与三个附录。
● 第一章概述陆军AMD,全章提供大量术语定义与扩展解释以促进对适用于所有ADA梯队的AMD行动与语言的理解。
● 第二章描述陆军AMD系统,涉及ADA领导、指挥所与作战中心、传感器与武器系统及支撑网络,并介绍那些指挥、控制或影响ADA部队作战的联合实体。
● 第三章从AMD角度描述陆军作战流程,讨论ADA如何在计划、准备、执行与评估阶段全程支持该流程,重点在于计划制定。
● 第四章说明ADA部队如何执行AMD行动以支持更高司令部的AMD方案与受援指挥官的作战概念,讨论聚焦准备与执行。
● 第五章阐述武装冲突以下竞争与危机期间ADA的影响与贡献。
● 第六章说明ADA对大规模作战行动的支持贡献,涉及敌方反介入/区域拒止活动及美军在部署/进入、防御、进攻与维稳行动中的行动。
● 附录A提供作战计划/命令附件I(防空反导)的示例。
● 附录B提供AMD执行矩阵示例及其作为同步AMD任务的决策支持工具的用法,该矩阵支持ADA指挥官制定任务及相关目的。
● 附录C描述陆军与联合作战部队面临的空中与导弹威胁,并提供用于分析威胁能力的问题集。
许多自然和工程系统都受偏微分方程(Partial Differential Equations, PDEs)支配,范围从分子体系中的原子相互作用到大尺度的宇宙动力学。求解这些 PDE 对于加深我们对复杂物理现象的理解、实现精确预测,以及为不同科学与工程领域的决策提供指导至关重要。数值求解器被广泛应用于 PDE 的模拟与预测,特别是在许多 PDE 难以甚至无法解析求解的情况下。这些求解器通常通过将连续域离散化为网格,再利用有限差分、有限元、有限体积或谱方法等技术,将微分方程转化为代数方程。
随着机器学习的最新进展,以及深度学习在众多领域取得的成功,人们在建模复杂的次尺度物理过程和开发高效的基于神经网络的 PDE 求解器方面看到了新的可能性。在这些方法中,神经网络可以对目标方程的解函数进行参数化,或直接逼近解算子本身,从而为传统求解器提供一种灵活的替代方案。与数值求解器相比,神经 PDE 求解器通常对较粗的离散化更具容忍度,并可消除对精细网格划分的需求,使其能够以较低的计算开销适应不同领域。此外,由于这些模型能够直接从数据中学习模式,因此并不严格依赖于对底层方程的精确了解,从而为复杂物理模拟提供了一种简洁而高效的途径。
在本论文中,我们探讨了开发和构建基于神经网络的模型,以对多种物理系统进行准确且高效预测的努力。我们首先介绍 Fluid Graph Networks (FGN) 和 Graph neural networks-Accelerated Molecular Dynamics (GAMD),这两种基于消息传递神经网络参数化的数据驱动模型,可用于高效的基于粒子的系统模拟。随后,我们提出了一系列基于 Transformer 的模型,用于建模包括湍流流动和全球天气动力学在内的多种物理现象。其一是 Operator Transformer (OFormer),采用 Transformer 编码器-解码器框架,能够灵活地适用于不同的离散化方式。为了提高 Transformer 在高维问题上的可扩展性,我们进一步提出了一种轴向分解注意力机制(axial factorized attention),显著降低了高维网格相关的计算成本。接着,我们将该分解注意力机制扩展到球面上,用于准确且高效的全球天气预报。最后,我们提出了一种生成式神经 PDE 求解器,借鉴了扩散概率模型的最新进展,以提高湍流时变系统模拟的鲁棒性。
当小型无人机系统(sUAS)由疏忽、鲁莽或恶意操作者操控时,将对地方及联邦机构构成重大威胁。随着sUAS与传统航空器共享空域的情况日益增多,且其可能作为武器侵入管制空域,人员、设施及资产防护已成为核心议题。本研究通过集成低成本分布式传感器与机器学习(ML)模型,提升战场态势感知能力,补强现有传感平台对sUAS的实时探测、分类与定位效能。
本文提出"无人机侦测指挥中心"(DDCC)概念架构。该系统对接分布式节点网络,通过声学与光学双模态实时获取sUAS数据,并具备截取关键帧能力以增强未来机器学习模型的预测性能。基于大疆Matrice 600 Pro采集的数据集,构建多组深度学习模型实现sUAS存在性分类及节点距离预测。重点评估声学测距性能(与光学测距对比),最终融合多源数据构建定制模型,验证融合数据是否优于单模态方案。初步实验显示:声学分类准确率79.6%,光学分类准确率86.7%;独立测距任务中声学平均绝对误差10.463米,光学误差16.961米;经卷积循环神经网络处理融合数据后,平均绝对误差降至9.57米,较声学数据提升0.88米,较光学数据提升7.385米。
本章首先阐明研究问题与目标,随后介绍DDCC系统——该专有平台可同步联动多传感器执行"记录"与"预测"指令。
在sUAS激增的背景下,无论操作者性质(疏忽/恶意/军事),均对地方及联邦机构安全构成紧迫威胁。面对sUAS与传统航空器空域共享及其武器化趋势,人员设施防护已成关键挑战。本研究旨在验证"低成本分布式传感器+ML模型"在sUAS探测、分类及测距中的有效性,并构建DDCC系统——该系统可加载预训练模型,基于视频、音频及融合数据实现sUAS存在性识别与距离测算。
本文致力于解决空基威胁探测的多维挑战(特指sUAS),通过在DDCC中融合"声学特征卷积循环神经网络"(CRNN)与"YOLOv8目标检测模型",构建可实时识别、分类及测距的全域解决方案。研究目标明确如下:
DDCC作为专有系统,通过传感器网络执行指令(如记录/预测)。其客户端界面采用3x3网格排列的九宫格视频流布局,每区块均支持"连接"、"录制"、"预测"、"静音"功能键,配备服务器主机配置文本框及远程重启下拉菜单。树莓派4服务器传输的实时音视频流显示于对应区块,捕获数据的分类预测结果集中呈现在日志域。系统可加载预训练模型执行定制化预测任务,本研究特训模型专注于基于视频/音频/融合数据的sUAS存在性识别与距离测算。
文档结构如下:第二章详述sUAS探测技术背景与研究进展;第三章解析DDCC系统设计与节点配置;第四章阐述数据采集、模型构建及训练验证方法论;第五章呈现全流程实验结果;第六章探讨未来sUAS数据采集路径;第七章总结研究并给出结论陈述。
现代强化学习(Reinforcement Learning, RL)系统揭示了有关人类通用问题求解的一些深层规律。在那些能够低成本模拟新数据的领域,这些系统能够学习到远超人类能力的序列决策策略。现实社会中存在许多问题,其解决同样依赖这种能力,但这些问题往往处于无法低成本生成新数据的领域。在这种情境下,我们可以基于已有数据构建模拟器,但这些模拟器始终只能近似正确,并且在被查询到其训练分布之外时可能会出现严重错误。因此,我们训练智能体所处的环境与希望其最终部署的真实世界环境之间必然会存在失配(misalignment)。应对这种失配正是零样本强化学习(Zero-Shot Reinforcement Learning, Zero-Shot RL)的核心关注点——在这一问题设定中,智能体必须在完全没有实践机会的前提下,能够泛化到一个新任务或新领域。 尽管在理想化场景下实现零样本强化学习的方法已经取得了令人瞩目的进展,但若要在真实世界中复现这些成果,仍需新的研究。本文认为,要实现这一目标,至少需要应对三类约束:其一是数据质量约束:真实世界的数据集往往规模有限且同质化严重;其二是可观测性约束:在真实世界中,状态、动态和奖励通常只能被部分观测到;其三是数据可用性约束:事先获得数据的假设并不总是成立。 本文提出了一系列能够在这些约束下执行零样本强化学习的方法。通过一系列实证研究,我们揭示了现有方法的不足,并论证了所提出技术在弥补这些缺陷方面的合理性。我们相信,这些设计使我们更接近于能够部署到现实世界、解决实际问题的强化学习方法。
人工智能(AI)与无人飞行器(UAV)的融合显著提升了平台能力,尤其在增强态势感知领域。本文系统综述AI驱动技术提升无人机态势感知的研究进展。开篇界定无人机作战背景下"态势感知"及其核心要素——感知、理解与预测。继而探讨机器学习、深度学习、计算机视觉、自然语言处理及数据融合等AI方法如何强化无人机环境感知与解析能力。研究覆盖军事、民用及商业领域AI增强型无人机态势感知应用,重点包括:先进监视、目标捕获、搜救行动、环境监测、交通人流监控、基础设施巡检及物流配送。同时剖析AI无人机实施中的技术挑战(数据质量、实时处理、环境影响、可扩展性)与操作难题,并审视隐私隐忧及监管争议等伦理法律议题。除文献综述外,本文提供详实案例研究展示成功AI无人机应用,提炼实践洞察与经验教训。研究还识别传感器技术创新与AI算法突破等前沿趋势,指明领域发展机遇。核心结论强调AI在提升无人机态势感知方面的变革潜力,为构建更智能、自主、高效的空中系统铺平道路。本综述为研究者、从业者及政策制定者理解并利用AI-无人机技术交叉应用提供价值资源。
无人飞行器(UAV)作为多领域关键工具,凭借在危险/不可达环境作业能力及高性价比优势实现广泛应用。军事领域,无人机通过实时情报与态势感知能力,在监视侦察与战术行动中降低人员风险并提升任务效能;民用场景涵盖灾害响应、农业监测、基建检查及物流配送;搜救行动中无人机可快速覆盖广域复杂地形,显著提升受困者定位与救援概率(Arjomandi等, 2006)。态势感知作为无人机作业核心能力,包含感知(识别环境要素)、理解(解析要素关联与意义)、预测(预判态势演变)三级认知架构(Endsley, 1995, 1999),确保无人机安全高效达成作战目标。
无人机动态作业环境的不可预测性要求实时数据处理与决策能力(Endsley, 1995)。传统方法难以应对海量复杂数据,AI技术由此成为关键赋能器——机器学习、深度学习与计算机视觉等技术使无人机具备自主环境感知、模式识别、情境适应及智能决策能力。AI与无人机融合不仅提升作战效能,更拓展应用边界(Endsley, 1995)。本文旨在系统梳理AI增强无人机态势感知的技术现状,通过解析多元AI方法与应用案例,全面阐释AI如何变革无人机作业模式,并揭示融合进程中的机遇与挑战。综述范围涵盖机器学习、深度学习、计算机视觉、自然语言处理及数据融合等AI方法在无人机态势感知中的应用,辐射军事、民用及商业多领域场景,重点解析AI如何提升无人机环境信息感知-理解-预测能力。
• 阐释态势感知基础概念及其在无人机作业中的战略价值
• 分类评述增强无人机态势感知的AI技术体系
• 剖析多领域AI驱动态势感知的应用实践
• 识别AI-无人机融合的技术瓶颈、操作挑战及伦理法律风险
• 展望新兴技术趋势与未来研究方向
第二章阐述文献筛选标准与方法论;第三章解析态势感知理论基础、无人机系统及AI方法体系;第四章评述提升无人机态势感知的AI模型研究;第五章探讨AI与新兴技术优化无人机态势感知的未来路径。
摘要—— 作为机器人学和具身智能的关键前沿,机器人操作需要精确的运动控制,以及在动态环境中对视觉与语义线索的综合理解。传统方法依赖预定义的任务规范和僵化的控制策略,往往难以在非结构化、全新场景下扩展或泛化。近年来,基于大规模视觉-语言模型(VLMs)的视觉-语言-动作(VLA)模型逐渐成为一种变革性的范式。这类模型利用大规模 VLMs 在开放世界泛化、层级任务规划、知识增强推理以及多模态融合方面的能力,使机器人能够理解高层指令、识别未知环境并执行复杂的操作任务。本综述首次从系统化、面向分类法的角度,对用于机器人操作的大规模 VLM 驱动 VLA 模型进行全面回顾。我们首先明确界定大规模 VLM 驱动的 VLA 模型,并划分出两类核心体系结构范式:(1)单体式模型,涵盖单系统与双系统设计,二者在集成程度上有所差异;(2)分层式模型,显式地通过可解释的中间表示将规划与执行解耦。在此基础上,我们深入探讨大规模 VLM 驱动的 VLA 模型:(1)其与强化学习、免训练优化、人类视频学习以及世界模型集成等前沿领域的结合;(2)其独特特征的综合,包括体系结构特点、操作优势,以及支撑其发展的数据集和基准;(3)未来的研究方向,包括记忆机制、四维感知、高效适应、多智能体协作以及其他新兴能力。本综述整合了近期进展,旨在弥合现有分类法的不一致性,缓解研究碎片化,并通过系统性地整合大规模 VLM 与机器人操作交叉领域的研究,填补关键空白。我们提供了一个定期更新的项目主页以记录最新进展:https://github.com/JiuTian-VL/Large VLM-based VLA for Robotic Manipulation。 关键词—— 视觉-语言-动作模型,机器人操作,具身智能,大规模视觉-语言模型
机器人操作(Robotic Manipulation)处于机器人学与具身人工智能交汇处的关键挑战 [1]–[5]。其实现不仅需要精确的运动控制,还需要对复杂动态环境中的多样化视觉与语义线索具备深刻理解。机器人操作在诸多领域展现出广泛应用价值,包括先进制造、高效物流、精准医疗和多样化的家庭服务 [6]–[8]。传统的操作方法 [9]–[16] 主要依赖精心设计的控制策略和严格预定义的任务规范。然而,这些方法在非结构化的真实世界场景中往往表现不佳——尤其是在面对新颖物体、模糊的自然语言指令或此前未见的环境配置时,暴露出其在可扩展性与泛化能力方面的固有限制。 近年来,大规模视觉-语言模型(Vision-Language Models, VLMs)[17]–[25] 崛起为一种变革性范式。基于大规模网页级图文数据集的预训练,大规模 VLM 展现出卓越的能力,能够弥合视觉感知与自然语言理解之间的语义鸿沟。这种创新能力使 VLM 不仅能结合文本描述理解复杂视觉场景,还能超越单纯的目标识别,形成整体的上下文理解。大规模 VLM 与机器人系统的结合催生了一类新模型:基于大规模 VLM 的视觉-语言-动作(Vision-Language-Action, VLA)模型 [26]–[32]。如图 1 所示,这一新兴范式展现出克服传统机器人流水线根本局限的巨大潜力。它使机器人能够理解高层次的人类指令、泛化至未知物体与场景、推理复杂的空间关系,并在动态、非结构化环境中执行复杂的操作任务。例如,一个 VLA 模型可以完成如下指令:“把红色的杯子从笔记本电脑旁边放到最上层的架子上”,这一任务需要视觉定位、空间推理与序列动作规划的复杂融合。 在本研究中,基于对近期工作的广泛回顾 [26]–[37] 及对该领域的深入理解 [38]–[43],我们提出了一个一致性的定义:大规模 VLM 驱动的 VLA 模型是指能够(1)利用大规模 VLM 理解视觉观测和自然语言指令;并且(2)通过推理过程直接或间接地服务于机器人动作生成的模型。我们进一步将其划分为两大类(见图 2 与图 3): * 单体式模型(Monolithic Models)(图 3 左):包括单系统与双系统实现。
单系统模型 [26], [27], [44], [45] 在统一架构中集成了环境理解(包括视觉感知、语言理解与机器人状态感知)与动作生成。 * 双系统模型 [29]–[32] 则采用 VLM 作为场景解释的骨干网络,并由一个动作专家负责动作生成,二者通过潜在表示的传播进行信息交互。 * 分层式模型(Hierarchical Models)(图 3 右)[46]–[50] 明确将规划与策略执行解耦。它们区别于双系统的端到端方法,具有以下特征:
结构化的中间输出:规划模块生成可解释的表示(如关键点检测、可供性图、轨迹提案),随后由策略模块处理以生成可执行的动作。 1. 解耦的训练范式:通过专门的损失函数或 API 驱动的交互,实现对层级模块的独立优化。
这种分类法凸显了 VLA 模型开发中的关键设计维度,尤其是系统集成的粒度与认知分解的显式程度,同时保持与现代表征学习范式的紧密联系。 在上述定义与分类的框架下,我们的全面综述揭示了新兴 VLA 领域中的若干关键缺口,其整体组织结构如图 2 所示。首先,该领域的术语与建模假设尚不一致,研究工作分散在机器人学、计算机视觉与自然语言处理等学科。其次,已有综述往往仅聚焦于 VLMs [51]–[55] 或机器人操作 [2], [56]–[59],缺乏对二者交叉所带来的独特挑战与进展的综合分析。因此,亟需一份系统性和原则性的综述,以阐明大规模 VLM 驱动 VLA 模型的基础,组织相关方法的空间,并勾勒该融合范式的未来方向。本综述旨在填补这一空白。我们提供了结构化且深入的回顾,以全景视角推动学界更深刻的理解并激发未来的突破。
本文的主要贡献总结如下: * 纵向综述: 我们系统回顾了 VLM 的演化轨迹、操作学习的技术进展,以及大规模 VLM 驱动 VLA 范式的兴起。同时,分析了单体式模型与分层式模型的发展,识别关键挑战并展望未来方向。 * 横向综述: 我们提供了单体式与分层式模型更精细的比较性分类法,从结构与功能两个维度展开分析。进一步探讨了大规模 VLM 驱动 VLA 模型的前沿研究方向,强调其独特特征与支撑发展的数据集。该综述为理解该领域的发展与结构组织提供了概念性路线图。
本文余下部分的组织结构如图 2 所示:第二节介绍 VLM 演化与机器人操作基础知识;第三节分析单体式模型,包括单系统与双系统架构的优劣与权衡;第四节探讨分层式模型,将其分为仅规划器与规划-策略框架,并进一步根据中间表示类型(子任务、关键点、程序等)细分;第五节讨论其他前沿方法,包括基于强化学习的优化、免训练方法、从人类视频学习以及基于世界模型的方法;第六节分析大规模 VLM 驱动 VLA 模型的核心特征,涵盖多模态融合、指令跟随和多维泛化;第七节分类与分析相关数据集与基准,涵盖模拟、真实世界与人类交互数据;第八节探讨关键开放挑战与未来研究方向;第九节给出结论。
基于2040年全球战略环境、先进科技动向及各国军事理论发展,研判未来作战方向,实证化新型装备与技术以获取核心能力
1.未来战略环境研判
2.战争特性演变趋势(上/中/下篇) 3.军事理论体系创新 4.未来作战方向规划 5.能力生成新型装备与技术路径
军事行动常通过战场行为棱镜呈现,因其具象化特质更易构建叙事。军队惯用此聚焦战斗员的视角,却忽视另一关键群体——决策者虽处幕后,却通过各层级责任岗位左右冲突最终走向。危机乃至战争的命运,实系于其运筹帷幄之间。
军事指挥层依托指挥控制体系(C2)架构决策,框定战斗员行动边界。此类决策源自包含多元要素(非纯军事维度)的规范化流程。新近"兵力运用概念"将指挥效能列为作战优势九大要素之一。在法国兵力投送逻辑中,其可信度至关重要——武装力量统帅(共和国总统)角色具有核心地位。正如戴高乐将军所言:"军事指挥官须持明晰方案以坚定决心。若下级信心动摇,必招致上级干预。"
聚焦多域作战语境,空战指挥体系(C2 Air)尤受关注——其折射我们在"多域"生态中设计未来作战的能力。法国空战指挥体系历经三十年演进(始自海湾战争),已成西方空军标杆。尽管当前法国C2 Air体系表现卓越,未来挑战仍引发空战指挥前景之思。法国空军正从概念层面(通过推广多环境/多领域互联协同空战探索性概念)与技术层面(未来空战系统FCAS项目)双轨推进。
法国空天军正酝酿指挥原则重构。现行作战指挥在战略层集中管控,形成战略-战役-战术层垂直信息流("自上而下"与"自下而上"并行)。多域作战理念促使我们反思指挥关系适配路径:七大对抗域内(或跨域)效能协同,引发武装力量指挥层级重构命题。环境指挥机构间及其与联合层级的互动亟需调整,环境文化认知更需深化共享。未来决策者须浸润各作战域特性与能力,其培养路径应涵盖多域谱系掌控力。
武装力量在全对抗域的复杂行动,将根据需求向基层(尤战术层)赋权。部分作战概念与决策权向战场前沿转移,催生更趋水平化的指挥链。战场数字化、跨军种战术单元互联、信息云部署及通信抗毁性,将提升战术单元全局感知力与多域环境认知。指挥控制体系由此从金字塔架构,向蛛网状宽基拓扑结构演进。
空军人士认为:发展"辅助性原则"(subsidiarity)是提升决策效能的教义机遇——通过赋予战术单元结构化作战进程的决策权(传统属高层级权限)。现行空战指挥体系运作遵循两大核心:指挥集中化(单一指挥官统辖所有空中资产,集中化设计)与控制集中化(指令执行监控与效果评估)。战斗单元执行层面仍保持分散化。此模式在确保力量集中、目标优选与资源节约方面成效卓著。
然其固有迟滞性与前文所述挑战(尤需持续更新的多域战场态势),倒逼体系向辅助性原则演进。实现分权需满足双重条件:
首为战术决策者培养
当前战术决策者远离战略层思维,聚焦战术专业考量,罕有全局空战机动认知。为拓展其对空战贡献,须使其尽早熟悉多域空战指挥运作及适配中的方法论。此理论路径助其以超越当前局限的视野审视任务——不仅透过技战术棱镜,更需认知其决策对作战进程的结构性影响,使之成为"战略中校"。为确保决策相关性,须通过多域C2 Air指挥官与参谋团队同战术决策者的紧密互动,将理论贯穿作战全程。战术决策者需持续获知组成部队指挥官意图,确保决策自然契合统帅视野。
次为技术赋能
战术决策者需在最佳时机获取顶层有效信息。战术层信息管理具决定性意义——因直面敌手且战机座舱决策时限极短。唯有有序及时传递有效要素方能制胜。首圈(接敌层)、二圈(支援层)空中平台与地面指挥链的跨平台互联(有人/无人、固定/机动),辅以FCAS构想的决策辅助人工智能与数据管理,使当前指挥原则的重大变革具备技术可行性。
信息管理难题同样存在于自下而上(效应器至组成部队指挥官)链路。持续多域态势评估能力带来真实作战优势,而为赋能指挥官决策,须辅以行动效能评估。评估功能常为指挥体系薄弱环节——其难度高、主观性强,却是军事统帅调整作战方向的关键。多域特性更增其复杂性:电厂产能、敌无线电追踪等效果易量化,但涉及认知域、无形领域(尤网络与信息域)的行动则难有效能评估标尺。
评估挑战亦存在于C2环境内部。当前空军采用三级报告机制:行动中机组无线电初报、行动后情报官地面中报、参谋部门终报(最详实)。空战组成部队指挥官依此决策后续行动。正如决策辅助性原则,相同机制(培养"战略中校"、技术创新)可充实战斗单元初始报告。部分原属组成部队参谋的分析工作需由战术梯队承担以提升时效。
前述联合协作模式及空战组成部队内外指挥关系重构,引发信息共享与"去隔阂化"命题。无论长期规划抑或瞬时决策,情报始终是作战燃料。劣质燃料将使顶级引擎失速。情报界全角色按作战需求(中期/长期/瞬时)加工原始信息,并向决策者与效应器分发成品情报,此乃多域指挥链决胜能力。人工智能赋能的巨量信息处理工具已显实效,但分析归因与传递速度仍是挑战。末点更关乎传输安全——情报指令传递的作战保密是维持优势的关键,亦是电磁频谱掌控的技术攻坚。激光通信技术进展(传输速率达2Gbps且抗干扰性强)有望强化数据防护。
多域C2 Air的核心挑战在于时间维度驾驭:需长远视角监控认知域态势、规划评估效能;同时依赖瞬时响应能力捕捉战机。唯持续多域态势评估可实现此目标。时间管理亦体现于C2 Air严谨系统化复现流程的能力——此能力与作战效能不可分割。最终,时间管理表现为按需定制信息流与任务要素在各责任层级的传递频率与节奏。
法国空天军认识到未来二十年的地缘战略、教义与技术挑战。通过作战指挥体系演进概念研究及FCAS项目推进,已明确未来需求。创新视野下,其构想的C2空军将依托革新指挥原则驾驭全时间维度:设计集中化保障空战全局协同,结构化决策权向战术层下沉;技术进步提升空战机动评估能力;依托跨军种互联信息云,数据(情报/信息/态势评估)流转更趋高效。全对抗域颠覆性行动模式设计与互联协作路径,将使敌方面临剥夺其行动主动权的作战复杂性。
在生成式人工智能技术重构全球数字经济版图的当下,AI陪伴聊天赛道成为大模型商业化落地的黄金入口。随着模型参数规模突破万亿级,该领域正迎来从工具属性向情感交互生态跃迁的临界点,孕育现象级产品的产业土壤已然成熟。当技术红利与用户期待形成共振,如何系统性构建兼具技术可行性与用户体验价值的AI陪伴聊天应用,已成为行业关注的焦点命题。 然而,新手开发者常面临"从何处起步""如何高效落地"的困惑:如何将大模型能力转化为具备商业价值的陪伴应用?开发全流程包含哪些核心环节?怎样快速完成从需求定义到产品上线的闭环?本白皮书立足产业实践前沿,以工程化思维解构AI陪伴聊天应用的开发全流程,为零基础学习者打造一站式技术指南。 我们致力于将晦涩的技术原理转化为可操作的实施路径,通过模块化知识体系与渐进式开发框架,帮助读者在30天周期内完成从技术认知到产品落地的能力跃升,最终构建具备基础交互能力的Web或App原型。