本报告系统介绍了扩散模型(Diffusion Models)在现代生成式人工智能中的理论基础、训练与采样机制、模型结构、指导技术以及在图像、音频、文本等多模态任务中的应用。文中首先回顾生成模型的发展脉络,区分了显式概率建模(如自回归、流模型、VAE)与隐式建模(如GAN)。扩散模型被视为一种基于“迭代细化”(iterative refinement)的生成框架,通过逐步向数据添加噪声的前向过程与反向“去噪”过程实现生成,其本质可等价地理解为自编码器、深层潜变量模型、能量模型、基于SDE/ODE的流模型或深度RNN。 报告详细阐述了扩散模型的核心数学机制,包括噪声调度(noise schedule)、预测目标(预测 x0x_0x0、噪声 ϵ\epsilonϵ 或中间变量)、训练损失与采样步骤等关键要素。文件中还对比自回归生成(一步步生成)与扩散生成(逐步去噪)两大范式,指出扩散模型在图像生成领域效果卓越的重要原因源于其“近似频谱自回归”特性,即不同噪声层级天然对应不同空间频率,使训练目标在感知上更合理(低频权重更高)。 在如何控制扩散模型输出方面,报告对“分类器指导”(classifier guidance)与“无分类器指导”(classifier-free guidance)进行了深入解析,展示了在不同页图示中如何通过梯度或条件差分实现模型输出的“强化”与“引导”,从而在多样性与质量之间调节。 文件同时讨论扩散模型在离散数据(如文本)上的挑战与解决方案,包括 Continuous Diffusion for Categorical Data (CDCD) 框架、得分插值(score interpolation)、时间变换(time warping)等技术,并展示其与 BERT 结构之间的关联。此外,也介绍了扩散模型在音频生成、视频生成(Veo 3)、大型图像模型(Imagen 4)中的实际应用。 最后,报告还探讨了蒸馏(distillation)技术如何将多步扩散采样压缩为少步模型,以及迭代精炼如何突破传统深度网络无法训练超深图的限制,对比不同生成范式在语言和感知信号处理中的差异,并展望了未来可能由超大规模 VAE 等模型替代迭代式扩散框架的趋势。 总体来看,该报告全面展示了扩散模型的理论统一性、训练与采样实践、指导方法、模型架构发展、在连续与离散领域的扩展,以及其在当代生成式 AI 中的核心地位。
神经演化(Neuroevolution),即通过进化计算优化神经网络,自 1990 年代以来一直是机器学习领域中不断发展的一个重要分支。其主要关注点在于:当训练目标未知、且良好性能依赖于跨时间的多步决策时(如机器人控制、游戏博弈与决策制定),如何为智能体进化出高性能的神经网络。近年来,神经演化的研究范围进一步扩展到深度学习架构优化、生物智能演化机制的理解,以及面向硬件实现的神经网络优化。 本书将向学生介绍神经演化的基础知识,随后深入探讨多项使神经演化更高效、更通用的高级主题,回顾典型应用领域,并提出未来研究问题。书中还通过一个基于 Python 的软件平台提供动手实践,包括动画、交互式演示、练习与项目环境。我们希望你能从中获益!
为了说明神经演化的本质,考虑下面四个挑战(图 1.1): 想象你想在一款你扮演搜救人员的视频游戏中创建一个角色。这个角色是你的助手:侦察有用信息、协助搬动大型物体等。你希望它能够预判你的意图,并以可信、类人(human-like)的方式行动:像你一样,它的资源有限,但通常能很好地利用这些资源。你要如何设计这样一个角色?它的许多特征很难精确定义:你只能在看到时才知道它是否合理。 再想象一场新的大流行正在出现。它似乎特别影响脆弱人群,似乎在拥挤环境中通过空气传播,并具有较长的潜伏期。这种疾病已在多个国家导致住院,一些国家也采取了应对措施,例如关闭学校、限制航空旅行、开展接触者追踪。最终,病原体可能会被测序,疫苗和药物也可能被开发出来,但我们必须立即应对疾病的传播。我们能否从世界各地的经验中学习,为不同国家、甚至城市与社区的当前状况提出定制化的干预建议? 你是一名零售企业的分析师,试图预测不同商品在不同门店的销量,以最小化库存与浪费。你拥有包含产品描述、季节性变化与经济指标等的历史数据,理论上可以用深度学习进行预测。然而数据量还不够:如此复杂的网络很可能仅仅记住这些小规模数据,而不能在未来很好地泛化。然而,关于其他类型销量、以及其他经济与零售指标的数据却非常丰富。你能否设计一种深度学习架构,利用所有这些其他数据集来提升对你目标数据的预测能力? 你是一名生物学家,研究某一物种的行为,例如鬣狗。你发现它们在某些情况下能够执行极其复杂的协作动作,从而战胜一群狮子。虽然鬣狗在许多社会性任务上都表现不错,但这一行为显得超出了它们通常的能力范围。我们是否正在观察进化本身,即一种可能最终导致社会智能飞跃的适应?这个假设无法在野外或实验室中直接验证。我们是否可以构建计算模拟来为此提供证据? 以上四个例子均展示了神经演化在发挥作用。神经演化,即通过进化计算优化神经网络设计,是人工智能工具箱中一种与众不同的方法。其理念并非优化单一数量化指标,而是寻找能够同时实现多个目标的解决方案,其中一些目标甚至可能定义模糊;不是用它来取代人类的创造力和决策权,而是将其作为一种强大的发现工具来扩展人类能力;不是通过编码和应用已有有效方案来解决问题,而是去发现具有创造性、有效且往往令人惊讶、难以找到的解决方案;不是创建静态、僵硬的系统,而是发展能够在不可预测、不断变化的世界中泛化并适应的行为。因此,通过神经演化,可以开发基于人工智能的决策过程,从而改善工程、科学乃至整个社会。 本书旨在为读者提供神经演化在各种应用中所需的概念性与实践性知识,并推动其进一步发展。本章将从神经演化机制的高层概述开始,将其与其他类型的创造性 AI 进行比较,识别神经演化最有可能产生重大影响的机会。之后本书主体将依次回顾进化计算基础、利用编码与多样性的技术、构建智能体的方法、增强与利用其他学习系统(如深度学习、类脑系统、强化学习与生成式 AI),以及如何进行生物建模并从中获得洞见。
本书对这些主题进行了全面介绍。其目标不仅是让读者熟悉各种神经演化技术,还要提供能够利用这些技术、进一步发展它们并构建应用系统所需的工具。书中回顾了主要算法,并解释了它们的起源与动机;给出了具体的应用示例,并在文献中提供相关参考;指出了若干开放研究领域,并提出进一步研究的建议。此外,本书还通过多个深入的案例研究展示如何利用这些概念解决现实世界中更复杂的挑战与问题。 虽然本书假设读者具备神经网络的基本知识,但对进化计算并不要求较多背景。作为配套资源,书籍网站还提供了若干演示、练习以及一个通用的软件平台。其理念是为读者提供不仅是理论知识,还包括可直接应用和扩展的实用工具。 神经演化这一领域兴起于 20 世纪 80 年代末,其早期成果来自 Belew、McInerney 和 Schraudolph(1992),Harp、Samad 和 A. Guha(1989),Kitano(1990),G. F. Miller、P. Todd 和 Hedge(1989),Mjolsness、Sharp 和 Alpert(1989),Montana 和 L. Davis(1989),Mühlenbein 和 Kindermann(1989),Schaffer、Caruana 和 Eshelman(1990),以及 Whitley 和 T. Hanson(1989)。其发展历程大约每十年都会以综述形式记录下来(Floreano、Dürr 和 Mattiussi,2008;Hougen 和 Shah,2019;Schaffer、Whitley 和 Eshelman,1992;Stanley、Clune、Lehman 等,2019;Yao,1999)。本书并不试图涵盖该领域的全部内容,而是希望以一种“导览式”的方式提供一个逻辑清晰的发展脉络。 因此,全书内容被组织为五个主要部分。 第一部分 通过一系列逐渐增加复杂度的例子,向读者介绍进化计算的基本原理。随后以简单示例引入神经演化的具体情形。首批练习用于帮助读者将这些概念快速具体化和应用(软件平台在下一节介绍)。 第二部分 聚焦神经演化中的两个核心设计要点:网络编码(直接编码与间接编码)以及通过多样性提升搜索效率。通过示例澄清不同编码方法之间的重要区别,比较遗传多样性与行为多样性,引入新颖性搜索(novelty search)与质量-多样性搜索(quality-diversity search),并介绍如何利用多样性进行集成学习(ensembling)。这些方法均是神经演化工具箱中的基础手段,但以往很少被清晰地区分。 第三部分 聚焦智能体:即如何从低层控制演化出有效行为,再提升到高层策略,最终支持决策系统。随后将视角从个体智能体扩展到协作与竞争的群体系统。接下来回顾交互式演化(interactive evolution),其作为结合机器探索与人类洞察的方法。最后,讨论开放式发现(open-ended discovery)的机会与挑战,其灵感来自生物进化,并回顾现有人工系统中开放式创新的实例。 第四部分 将神经演化扩展到与其他学习方法的结合。首先回顾深度学习架构设计方法,讨论其中存在的挑战与未来机会。随后将元学习(meta-learning)扩展到神经网络设计的其他方面,包括损失函数、激活函数、数据使用方式、学习方法及其协同效应。并进一步探讨神经形态系统、强化学习与生成式 AI 的协同组合,指出在这些场景中均可利用进化来优化整体设定,从而提升其他学习方法的效果。 第五部分 探讨神经演化如何为生物进化研究提供洞见,从理解神经结构与模块化,到发育过程、身体与大脑的协同进化,再到生物行为、突破性能力以及语言演化。全文中还识别了许多对未来“生物启发工程系统(bio-inspired engineering)”的潜在启示。结语(Epilogue)指出神经演化在构建具有人工通用智能(AGI)的智能体中可能扮演的角色。 总之,神经演化已成为近期 AI 革命中的第三个新兴组成部分。它使得构建能够生成行为、策略与决策能力的智能体成为可能。而这些智能体在现实世界中拥有广泛应用,可构建更高效、更可靠、成本更低的系统,进而改善人类生活。与此同时,该领域也仍然蕴含大量未来研究机会。
近年来,以大模型为代表的新一代人工智能技术实现爆发式突破,其在自然语言处理、多模态交互等领域的能力跃迁,正深刻重构产业发展逻辑,成为推动经济高质量发展的核心驱动力。在此技术浪潮中,AI智能体(AIAgent)作为大模型的原生应用形态,凭借自主感知、规划决策、工具调用与持续学习的核心能力,完成了从技术概念到产业实践的关键跨越。与传统AI工具相比,AI智能体打破了人机交互依赖明确指令的局限,构建起数字世界与物理世界的智能连接桥梁,有效破解了大模型“有脑无手”的落地困境,成为释放人工智能全产业链价值的关键载体。本报告立足“人工智能+”行动深入实施的战略背景,系统梳理AI智能体的技术体系、产业应用现状与生态格局,深入剖析其驱动产业变革的核心机制,全面研判发展面临的瓶颈与突破方向,最终形成兼具理论深度与实践价值的研究结论,为政产学研用各界协同推进AI智能体创新发展、加速新质生产力培育提供决策参考。
智能体化人工智能(Agentic AI)标志着人工智能领域的一次变革性转向,但其快速发展也导致了认识的碎片化,常常将现代神经系统与过时的符号模型混为一谈——这种现象被称为概念回溯式拟合(conceptual retrofitting)。本综述旨在澄清这一混乱,通过提出一种全新的双范式框架,将智能体系统划分为两条明确的谱系:符号 / 经典范式(依赖算法规划与持久化状态)以及神经 / 生成式范式(依赖随机生成与基于提示的编排)。基于对 2018–2025 年间 90 篇研究的系统化 PRISMA 综述,我们围绕该框架从三个维度展开全面分析:(1) 定义每一范式的理论基础与体系结构原则;(2) 在医疗、金融与机器人等领域的具体实现,展示应用约束如何决定范式选择;(3) 范式特定的伦理与治理挑战,揭示其不同的风险与缓解策略。
我们的分析表明,范式的选择具有战略性:符号系统在安全关键领域(如医疗)中占据主导地位,而神经系统则在高度自适应、数据丰富的环境(如金融)中更为普遍。进一步地,我们识别出关键研究缺口,包括符号系统治理模型的显著缺失,以及对混合神经–符号体系结构的紧迫需求。本文最终提出了一条战略路线图,主张智能体化人工智能的未来不在于某一范式的主导,而在于二者的有意整合,从而构建既具适应性又具可靠性的系统。本研究为未来面向稳健与可信任的混合智能体系统的研究、开发与政策制定提供了关键的概念工具包。
关键词—— 智能体化人工智能(Agentic AI),人工智能,系统性综述,神经体系结构,符号人工智能,多智能体系统,人工智能治理,神经–符号人工智能
人工智能(AI)领域正经历一场范式转变:从开发被动的、任务特定的工具,迈向工程化具备真实能动性的自主系统。现代智能体化人工智能系统 [1, 2] 的特征在于其具备前瞻性规划、上下文记忆、复杂工具使用能力,以及基于环境反馈自适应调整行为的能力。这些系统不再是简单的任务求解器,而是能够作为协作伙伴运行,能够动态感知复杂环境、推理抽象目标,并编排行动序列——既可以独立运行,也可以作为复杂多智能体生态系统的一部分 [3, 4]。
为了建立清晰的概念基础,我们对该领域的核心概念进行区分。**AI 智能体(或单智能体系统)**是一种自包含的自主系统,其设计目标是完成某个特定任务。它主要在隔离环境中运行,尽管可能与工具和 API 交互。其能动性由自主性、前瞻性,以及独立完成任务全过程的能力定义。 例如,一个由大型语言模型(LLM)驱动的强大单智能体在接到“为一款新的移动应用撰写完整的项目提案”的任务时,会自主拆解任务、开展研究、撰写不同部分并格式化最终文档。 与此相对,**智能体化人工智能(Agentic AI)**是一个更广泛的领域与体系结构方法,致力于构建具备能动性的系统。关键在于,它通常涉及 多智能体系统(MAS) 的编排:多个具备专长的智能体协同工作,通过协调与通信解决单个智能体无法处理的复杂问题。 例如,一个为相同任务设计的智能体化人工智能系统会调用一个由多个专门智能体构成的团队:由项目管理智能体负责任务分解,调研智能体收集市场数据,写作智能体撰写内容,质量审查智能体评估输出。他们的协作流程充分体现了智能体化人工智能的本质。 概括而言:AI 智能体可被视为单个高能力工作者,而智能体化人工智能则体现了利用能动性、并常通过架构化与管理整支“智能体团队”来实现系统目标的原则。
然而,这一快速演进也导致了对该领域理解的碎片化甚至时代错置。先前综述指出的一个核心问题是 概念回溯式拟合(conceptual retrofitting):即错误地使用经典符号框架(如信念–愿望–意图(BDI)模型 [5]、感知 来描述基于大型语言模型(LLMs)构建的现代系统 [8]。这些模型基于截然不同的机制运行,例如随机生成与基于提示的编排。因此,将它们强行套入符号时代的概念框架,会掩盖 LLM-驱动智能体 [9, 10, 11, 12] 的真实运行机制,并在本质上不兼容的体系结构范式之间制造一种虚假的连续性——无论这种套用发生在单一复杂智能体还是协调的多智能体系统中。 本文针对这些问题,首先通过建立清晰的历史脉络(图 1)展开,界定人工智能在五个不同但相互重叠的时代中的演化路径。
符号人工智能时代(1950s–1980s)[13] 奠定了人工智能的基础愿景,以逻辑和显式人类知识为核心。该时期以规则系统和专家系统(如 MYCIN 与 DENDRAL [14])为主,它们依赖精心手工设计的符号规则运行。智能被视为一种自上而下的演绎过程,代表了符号范式的最纯粹形式。 机器学习(ML)时代(1980s–2010s)[15, 16, 17] 标志着从硬编码逻辑向能够从数据中学习的系统的关键转变。尽管仍高度依赖人工设计特征,这一时期引入了统计机器学习模型,如支持向量机和决策树,推动了从分类到推荐等众多应用。它是连接符号时代与之后时代的过渡阶段,但尚未具备自动特征学习的能力。 深度学习时代(2010s–至今)[18, 19, 20, 21, 22] 的到来由算力的增强和大规模数据集的出现推动。深度神经网络(包括卷积网络与循环网络)使得从原始数据中自动学习层次化表示成为可能。该时代革新了视觉、语音与文本中的模式识别,突破了长期存在的感知瓶颈。然而,尽管深度模型非常强大,它们在本质上仍主要作为复杂的模式分类器,而非自主智能体。 在此基础上出现了 生成式人工智能时代(2014–至今)[23, 24, 25, 26, 27],由生成模型的突破推动。早期的生成对抗网络(GAN)很快被 2017 年提出的 Transformer 架构所超越,使 GPT、BERT 等大型语言模型成为可能。这些系统从“感知”迈向“生成”,能够产出连贯的文本、代码与多媒体内容。它们提供了现代智能体化人工智能得以实现的核心基质——一个强大的、通用的统计推理器。 最终,智能体化人工智能时代(2022–至今) 代表了当前的前沿阶段,其核心是将 LLM 的生成能力用于行动与自治。此时代由 AutoGPT 等智能体 [28, 29, 30] 的兴起所标志,它们能够通过规划和工具使用来追求复杂目标。越来越多的智能体进一步演化为多智能体系统 [31, 32, 33, 34, 35],如 CrewAI 和 AutoGen 等框架,通过专门角色与编排式协作,使智能体团队能够解决复杂问题。与符号范式的算法化推理不同,该阶段由神经范式主导,能动性从生成式模型的随机编排中涌现。 这一时间序列为理解现代智能体化人工智能提供了必要背景,但同时也揭示了一个关键的概念裂痕:智能体化 AI 时代并非符号 AI 的线性继承,而是构建在完全不同的体系结构基础之上。
为解决这一点,我们提出了一个全新的概念框架(图 2),旨在避免回溯性混淆,通过清晰区分智能体化 AI 的符号与神经两条谱系。该双轴分类法为严谨分析该领域的理论根基、体系结构创新与实践部署提供了统一视角。
理解现代智能体化 AI 的最佳路径,是结合其历史演化(图 1)进行考察。这一演化从符号时代的确定性规则系统,跨越机器学习与深度学习的数据驱动革命,最终抵达大型语言模型与生成式 AI 的变革性出现 [36, 37]。
然而,仅凭时间顺序并不足以提供严格的分析基础。当前讨论中的核心挑战,是将现代神经型智能体体系结构回溯性地套入符号时代的框架。为解决此问题,我们在图 2 中提出了一个双范式分类法。该框架根据两个独立维度对智能体系统进行划分:体系结构范式(符号 vs. 神经) 与 能动性与协调程度(单智能体 vs. 多智能体)。 该模型并非用于展示演化,而是为了提供一个结构化的分析视角。 本综述围绕该框架组织结构,综合了三个紧密关联的层次:
涵盖自主性与能动性的核心原则 [38],以及马尔可夫决策过程(MDPs)与部分可观测 MDPs(POMDPs)[39, 40] 等决策模型。值得强调的是,这些模型虽然在符号范式中形成理论语言,但现代系统采用了完全不同的方式实现这些概念。
聚焦驱动神经范式的现代基础设施。我们分析了 LangChain [41]、AutoGen 与 CrewAI 等系统,它们通过提示链式调用、对话编排、动态上下文管理等机制实现能动性——这显然不同于经典谱系的符号规划方式。
探讨智能体系统在医疗 [42]、金融 [43]、科学发现 [44]、法律推理 [45] 等领域的实际部署。基于我们的框架,我们能够将不同应用映射到相应范式,并分析其独特的实现挑战。 **
**
摘要: 大型语言模型(LLMs)正迅速从文本生成器演化为强大的问题求解器。然而,许多开放任务要求具备批判性思维、多来源信息整合以及可验证的输出,这些超出了单轮提示或标准的检索增强生成(RAG)所能实现的能力。近期,大量研究开始探索 Deep Research(深度研究,DR),其目标是将 LLM 的推理能力与外部工具(如搜索引擎)相结合,从而使 LLM 具备作为研究型智能体执行复杂、开放式任务的能力。 本综述系统而全面地审视了深度研究系统,包括清晰的发展路线图、基础组成模块、实践层面的实现技术、关键挑战以及未来方向。具体而言,我们的主要贡献如下: (i) 我们形式化提出了一个三阶段的发展路线图,并将深度研究与相关范式区分开来; (ii) 我们介绍了四个关键组成部分:查询规划、信息获取、记忆管理与答案生成,并为每一部分提供了细粒度的子类目体系; (iii) 我们总结了优化技术,包括提示工程、监督微调以及智能体强化学习; (iv) 我们统一整理了评测标准与开放挑战,旨在为未来发展提供指导与推动。 随着深度研究领域的快速演进,我们将持续更新本综述,以反映该领域的最新进展。
经过大规模网页语料训练的大型语言模型(LLMs)正迅速从流畅的文本生成器演化为能够在实际复杂应用中执行长程推理的自主智能体 [224, 83, 465, 288]。它们在多个领域展现出强泛化能力,包括数学推理 [112, 466]、创造性写作 [95] 以及实用的软件工程 [118, 140, 166]。许多现实世界任务本质上是开放式的,要求批判性思维、基于事实的信息,以及能够独立成文的回应。这远远超出了单轮提示或静态参数化知识所能提供的能力范围 [122, 183, 289]。为弥补这一能力缺口,**Deep Research(深度研究,DR)**范式 [237, 97, 66, 481, 125, 202] 应运而生。DR 将 LLM 纳入一个端到端的研究工作流中,该工作流迭代式地分解复杂问题、通过工具使用获取证据,并将经过验证的见解综合为连贯的长篇回答。 尽管该领域发展迅速,但仍缺乏对 DR 的关键组成、技术细节与开放挑战进行系统性分析的全面综述。现有工作 [458, 31] 多集中于相关领域的发展,如检索增强生成(RAG)与基于 Web 的智能体系统 [401, 200, 285, 456, 316]。然而,与 RAG [89, 72] 相比,DR 采用更灵活、更自主的工作流,不依赖手工构建的流水线,并旨在生成连贯且基于证据的报告。因此,对其技术图景进行清晰梳理已成为紧迫但仍具挑战性的任务。本综述通过提供对 DR 的全面综合来填补这一空白:将其核心组件映射到代表性的系统实现上,整合关键技术与评测方法,并为建立一致的基准测试和推动 AI 驱动的研究持续发展奠定基础。 在本综述中,我们提出了一个面向 DR 系统的三阶段发展路线图,展示其从智能体式信息寻求到自主科学发现等广泛应用。基于该路线图,我们总结了常见 DR 系统的任务求解工作流中的关键组成部分。具体而言,我们介绍 DR 的四个基础组件: (i) 查询规划:将初始输入查询分解成一系列更简单的子查询 [250, 426]; (ii) 信息获取:按需调用外部检索、网页浏览或多种工具 [167, 221]; (iii) 记忆管理:通过受控更新或折叠机制保证与任务求解相关的上下文 [243]; (iv) 答案生成:输出具有明确来源标注的综合性结果,例如科学报告。 这一范围区别于标准 RAG [89, 72] 技术,后者通常将检索视为启发式增强步骤,而不具备灵活的研究工作流或更广泛的行动空间。我们同时介绍如何优化 DR 系统以有效协调这些组件,并将现有方法划分为三类: (i) 工作流提示(workflow prompting); (ii) 监督微调(SFT); (iii) 端到端强化学习(RL)。 本文的结构安排如下:第 2 节给出 DR 的明确定义及其边界;第 3 节介绍 DR 的四个关键组成部分;第 4 节介绍构建 DR 系统的技术细节;第 5 节总结重要的评测数据集与资源;第 6 节讨论未来方向中的挑战。 综上,本综述的主要贡献如下: (i) 我们形式化了 DR 的三阶段路线图,并清晰地区分其与标准检索增强生成等相关技术的差异; (ii) 我们介绍了 DR 系统的四个关键组件,并为每一组件提供细粒度的子类目体系,以全面呈现研究循环; (iii) 我们总结了构建 DR 系统的详细优化方法,为工作流提示、监督微调与强化学习提供实践性洞见; (iv) 我们整合评测标准与开放挑战,旨在支持可比性报告并引导未来研究。
Deep Research(DR)旨在赋予大型语言模型(LLMs)一个端到端的研究工作流,使其能够作为智能体,以最少的人类监督生成连贯且基于来源证据的报告。此类系统自动化整个研究循环,涵盖规划、证据获取、分析与报告撰写。 在 DR 框架下,LLM 智能体负责规划查询、从异构来源(如网页、工具、本地文件)获取并过滤证据、维护和更新工作记忆,并综合生成具有可验证性且带有明确引用的回答。下面,我们正式介绍一个三阶段的发展路线图,用以刻画快速演进、以能力为导向的 DR 研究图景,并将其与传统 RAG 范式进行系统对比。
我们将 DR 视为一种能力演进轨迹,而非价值层级。以下三个阶段描绘了系统可可靠执行的能力从“精确证据获取”到“可读分析整合”,再到“形成可辩护洞见”的逐步扩展。
第一阶段的系统主要擅长寻找正确的来源并提取答案,几乎不进行综合。这类系统通常会对用户查询进行重写或分解以提升召回率,检索并重排序候选文档,应用轻量过滤或压缩,并生成带有明确引用、简洁而准确的答案。核心强调点是:忠实于检索内容与可预测的运行效率。 典型应用包括开放域问答 [227, 165]、多跳问答 [425, 344, 265] 以及其他信息寻求任务 [271, 444, 333, 70, 215],这些任务的“真值”通常局限于少量可检索来源。 评测重点包括: * 检索 recall@k * 答案精确匹配 * 引文正确性 * 端到端延迟
体现了该阶段对每 token 的准确性与操作效率的关注。
第二阶段的系统跳脱单点事实提取,能够生成连贯、结构化的报告,整合来自多个异构来源的证据,并处理冲突与不确定性。研究循环在此阶段变得显式迭代:系统规划子问题、从多种原始内容(如 HTML [323]、表格 [44, 226]、图表 [208, 208])检索与抽取关键证据,最终综合为叙事性报告。 典型应用包括市场与竞争分析 [469, 347]、政策简报 [356]、满足复杂约束的行程规划 [331],以及其他长程问答任务 [66, 434, 378, 49]。 评测重点从短文本的表层匹配转向长文本质量,包括: * 细粒度事实性 [43, 216] * 引文可验证性 [310, 86] * 结构连贯性 [21] * 关键点覆盖度 [379]
Phase II 以适度增加的计算与复杂度换取显著提升的清晰度、覆盖度与决策支持能力。
第三阶段代表着 DR 的更广阔、更具野心的发展方向,旨在让智能体推进科学理解与创造,而不仅仅是信息整合。在此阶段,DR 智能体不仅要汇聚证据,还需能够: * 生成假设 [490] * 执行实验验证或消融研究 [223] * 批判已有论点 [498] * 提出新的观点 [386]
典型应用包括论文审稿 [506, 248, 498]、科学发现 [460, 292, 291] 与实验自动化 [362, 472]。 评测重点包括: * 发现的创新性与洞见性 * 论证结构的连贯性 * 结论的可复现性(包括是否能够从引用来源或代码重新推导结果) * 不确定性校准与透明性
许多现实任务本质上是开放式的,需要批判性思维、基于事实的信息,以及可独立成文的回答。这些需求暴露出现有方法(包括传统 RAG 或简单扩大 LLM 参数规模)难以解决的核心局限。以下总结了三类关键挑战:
传统 RAG 工作流基于静态检索,依赖预先索引的语料库 [232, 225]。然而现实任务通常要求主动与动态环境交互,如搜索引擎、Web API、代码执行器等 [487, 223, 362]。 DR 系统扩展了这一范式,使 LLM 能够执行多步、工具增强的交互,从而获取最新信息、执行操作并在数字生态中验证假设。
研究型任务通常包含多子任务协作 [378]、任务上下文管理 [411],以及中间过程的迭代优化 [290]。 DR 通过闭环控制与多轮推理支持智能体实现自主规划、修正与优化,以达成长程目标。
LLM 在开放式任务中容易产生幻觉与不一致性 [109, 471, 123, 13, 52]。 DR 系统通过可验证机制,将自然语言输出与真实证据对齐,从而构建更可靠的人类—智能体交互接口。
自主武器系统(AWS)的发展——有时也带有“致命性”标签,缩写为LAWS——多年来一直处于激烈讨论之中。众多政治、学术或法律机构及行为体都在辩论这些技术带来的后果和风险,特别是其伦理、社会和政治影响,许多声音呼吁严格监管甚至全球禁止。尽管这些武器备受公众关注且被认为影响重大,但“AWS”这一术语具体指代哪些技术以及它们具备何种能力,却往往出人意料地不明确。AWS可以指无人机、航空母舰、无人空中/地面/海上载具、机器人及机器人士兵,或计算机病毒等网络武器。
这种不确定性之所以存在,尽管(或许正是因为)已有大量定义试图从功能上(例如“一旦激活,自主武器‘无需操作员进一步干预即可选择和攻击目标’”:美国国防部,2023年:第21页)或概念上(源自对自主系统、人工智能或机器学习的理论化)来明确该术语。定义仍为不同类型的技术留下了广阔空间,并且结合关于人工智能的更广泛讨论,也为未来发展的潜力和预测提供了可能。除了术语的模糊性,这些系统在何种意义上以及在多大程度上可被称为“自主”的本质也依然含糊不清。尽管自动化能力的发展无疑在推进(Scharre, 2018; Schwarz, 2018; Packer and Reeves, 2020),人类能动性和干预方式的程度不断降低,但完全超越人类控制、因此被许多人担忧的完全自主武器,在很大程度上仍是一种概念上的可能性,而非实际的军事现实。
这些模糊性导致了巨大的意义空白,而这些空白又往往被想象所填充——这是新技术,特别是人工智能的常见做法(Suchman, 2023)。潜在的现实可以扮演重要角色,因为它们是将专业知识传递到社会其他领域(包括新闻、政策制定、研究、教育和民主决策过程)的工具。因此,关于AWS功能及其后果的看法,受到军事、国家和技术未来想象的启发和塑造。这些想象包括地缘政治情景、伦理问题、国家政策或科幻小说。在安全与军事政策中,这些不同现实之间的相互联系甚至被用作一种方法论——例如,“红队演练”——这意味着应用对潜在未来的创造性虚构描述来为实际决策提供信息(The Red Team, 2021)。另一种应用是兵棋推演,这是一种预见未来军事场景的方法,其起源至少可追溯至19世纪,但已适应当代技术和媒体环境,包括虚拟现实和使用大语言模型的基于人工智能的模拟(Goecks and Waytowich, 2024)。
自主武器的前提,被视为占据着一个自身特有的混合空间,这促使我们探索随之而来的无数现实。本书的基本原理认为,只有承认实际技术发展与其相关的愿景和虚拟场景之间持续而复杂的动态互动,才能理解所讨论的这些现实。正是在这种不确定性——想象、可能性和虚构在此交织——的背景下,自主武器变得极具影响力。它们激发出情感、话语、鼓动、(反)行动、投资、竞争、政策或技术与军事蓝图。
关于自主武器主题的出版物通常侧重于其法律、政治或伦理影响(例如,Bhuta等人,2016;Krishnan,2016),这是评估这些技术的第一层级。也有一些著作讨论了其独特的表征(Graae and Maurer, 2021),以及我们见证和体验它们的方式(Bousquet, 2018; Richardson, 2024)。这些著作的基础也基于前面概述的不同现实。本书引入另一种分析自主武器现实的方法,提出一种第二层级的方法:例如,一个伦理问题不仅仅被框定为伦理问题本身,即沿着提出以下规范性问题的思路:“自动化杀人机器会引发哪些道德问题?” 在本书建议的方法中,伦理问题反而被理解为一个促成因素,它有助于在大众文化、政治、新闻或研究中构建、传播和维持对致命性AWS的特定理解。简言之,伦理话语共同创造了其对象的现实。因此,本书所采取的视角将AWS的不同现实置于前台,进而旨在为现有的辩论揭示其(常常是隐含的)基本假设。
本书这篇引言性章节首先勾勒了军事装备日益自动化的技术和政治发展进程。这些发展在理论上被阐述为既具构成性又具述行性,以涵盖全球范围内在理论和实践中对AWS的动态变化和不同理解。随后,本章就这些现实提出了六点思考,有助于界定和巩固AWS的动态含义,这些含义往往在公众、军事和监管领域受到极大关注。章节最后概述了全书的结构并简要总结了各章的贡献。
全书结构分为三个独立部分,分别探讨自主武器的当前现实。每个部分都从特定的视角范式分析自主武器:1. 叙事与理论,2. 技术与物质性,以及 3. 政治与伦理。每个部分的开篇由一位艺术家及其对自主武器的构想引入。这种划分基于对跨越这些领域所阐发的不同意义的分析,这些意义构成了AWS的现实,并强有力地影响着如何感知和对待这项技术。
Agentic AI(智能体化人工智能)代表了人工智能领域的一场变革性转向。然而,由于其发展速度迅猛,当前学界对其概念的理解仍相对碎片化,常常将现代神经系统与过时的符号模型混为一谈——这一现象被称为“概念性回溯(conceptual retrofitting)”。本综述旨在打破这一混乱,通过提出一个全新的“双范式框架”,将智能体系统划分为两条截然不同的谱系:符号/经典范式(依赖算法规划与持久状态)与神经/生成式范式(依赖随机生成与提示驱动的编排)。
基于对 2018–2025 年间 90 篇研究的 PRISMA 系统综述方法,我们围绕该框架从三个维度展开全面分析: (1) 各范式的理论基础与架构原则; (2) 在医疗、金融与机器人等领域的具体实现,展示应用约束如何决定范式选择; (3) 不同范式特有的伦理与治理挑战,揭示风险模式与缓解策略的差异性。
我们的分析表明,范式选择具有战略性:符号系统在安全关键领域(如医疗)中占据主导,而神经系统则更适用于数据丰富、需要高度适应性的场景(如金融)。此外,我们识别出关键研究缺口,包括:符号系统在治理模型上的显著不足,以及构建混合神经–符号架构的迫切需求。
最终,本研究提出了一条战略路线图,指出智能体化 AI 的未来不在于某一范式的单独取胜,而在于两者的有机融合,以构建既具适应性又具可靠性的系统。此项工作为未来在智能体系统的研究、开发与政策制定方面提供了必备的概念工具包,以推动稳健且可信赖的混合智能系统的发展。
**关键词:**智能体化 AI · 人工智能 · 系统性综述 · 神经架构 · 符号 AI · 多智能体系统 · AI 治理 · 神经–符号 AI
人工智能(AI)领域正经历一场范式转移:从构建被动的、任务特定的工具,转向工程化能够展现真正“能动性(agency)”的自主系统。现代智能体化 AI 系统(Wissuchek and Zschech 2025;Viswanathan et al. 2025)具备主动规划、上下文记忆、复杂工具使用,以及基于环境反馈自适应行为等能力。这类系统不再只是问题求解器,而是协作伙伴,能够动态感知复杂环境、推理抽象目标,并自主编排一系列行动——无论是独立运行还是作为复杂多智能体生态系统的一部分(Xie et al. 2024;Du et al. 2025)。 为了建立清晰且精确的概念基础,我们首先区分该领域的核心概念。AI 智能体(或单智能体系统)指为完成某项目标而设计的自包含自治系统。它主要以独立方式运行,虽然可能与工具或 API 交互,但其能动性体现为自治性、主动性,以及能够独立完成任务的能力。 例如,一个基于大型语言模型(LLM)的单智能体若被赋予任务“为一个新的移动应用撰写完整的项目提案”,它将会自主拆解任务、开展研究、撰写各部分内容,并完成最终文档的格式化。 相比之下,智能体化 AI(Agentic AI)是一个更广泛的领域与架构范式,旨在构建能够展现能动性的系统。关键在于,它通常涉及多智能体系统(MAS)的编排,其中多个专门化智能体协同工作,通过协调与通信来解决单一智能体无法胜任的复杂问题。 例如,一个用于执行相同任务的智能体化 AI 系统将部署一组专业智能体:由项目管理智能体负责将任务拆分为子目标,研究智能体收集市场数据,写作智能体撰写内容,而质量保障智能体对结果进行审查。他们之间的协作流程正是智能体化 AI 的典型体现。 总结而言,可以将 AI 智能体视为一个功能强大的“单个工作者”,而智能体化 AI则代表一种利用能动性的原则,通常通过设计并管理整支智能体团队来实现。 然而,这一快速演进也带来了概念上的碎片化与时代错置。先前研究指出的关键问题是概念性回溯(conceptual retrofitting)——即错误地使用经典符号框架(如 BDI 模型(Archibald et al. 2024)或 PPAR 感知–规划–行动–反思循环(Zeng et al. 2024;Erdogan et al. 2025))来描述基于大型语言模型(LLM)的现代系统(Plaat et al. 2025),而这些系统在根本上依赖随机生成与提示驱动的编排。这类做法模糊了 LLM 智能体的真实操作机制(Gabison and Xian 2025;Wang et al. 2024;Zhao et al. 2023;Chen et al. 2024),并人为制造了不同架构范式之间的虚假连续性。
已有多篇综述对智能体化 AI 的部分方面进行了探讨,但大多数研究要么范围有限,要么聚焦于单一技术层面、应用领域或高层概念,未能呈现该领域的全貌,也未有效回应概念性回溯的核心挑战。表 1 对这些综述的关注点、贡献与局限性进行了总结。 为解决这些问题,本文首先建立清晰的历史语境(如图 1 所示),展示 AI 的演化历程可分为五个彼此重叠但相对独立的时代:
该时代奠定了 AI 的最初愿景,以逻辑与显式知识为基础。MYCIN、DENDRAL 等专家系统(Swartout 1985)依赖手工构建的符号规则,体现了一种自上而下、演绎式的“纯符号范式”。
这一转变阶段摆脱了完全硬编码的逻辑,转向从数据中学习。尽管仍高度依赖人工设计特征,但统计学习模型(如 SVM、决策树)推动了分类、推荐等应用发展,为后续深度学习奠定基础。
深度神经网络的普及使得系统能够自动学习层级表征,这一时代革新了视觉、语音与文本的感知能力。然而,这些模型仍主要作为强大的模式识别器,而非自治智能体。
GAN 的突破与 Transformer 架构(2017)推动了 LLM(如 GPT、BERT)的快速发展,使 AI 从感知迈向生成,能够合成连贯的文本、代码与媒体,为现代智能体化 AI 提供了核心底座——通用、强大的统计推理引擎。
这一前沿阶段聚焦于利用 LLM 的生成能力实现行动与自治。此时代的典型系统包括 AutoGPT 等能够通过规划与工具使用来追求目标的智能体(Durante et al. 2024;Masterman et al. 2024;Piccialli et al. 2025),以及向多智能体系统演化的高级框架,如 CrewAI 与 AutoGen(Acharya et al. 2025;Viswanathan 2025;Plaat et al. 2025;Schneider 2025;Hosseini and Seilani 2025)。与符号范式中的算法推理不同,这一阶段的能动性源自生成式模型的随机编排机制。
这一历史脉络揭示了一个关键事实:智能体化 AI 并非符号 AI 的线性延伸,而是建立在完全不同的神经架构基础之上。为此,我们提出一个全新的概念框架(图 2),以明确区分智能体化 AI 的符号谱系与神经谱系,从而避免概念性错置,并提供统一的理论视角。
提出全新的双范式分类法
引入并应用一个新的分析框架(图 2),明确区分符号与神经谱系,避免概念性回溯并实现精准分类。 1. 架构澄清
阐明现代神经框架的运行原理,如提示链式推理与对话编排机制,而非符号式规划。 1. 实证映射
基于 PRISMA 方法系统性调研 90 篇文献,并使用双范式框架对其进行分类,分析研究趋势并基于正确标准评估其架构。 1. 治理锚定
将伦理、责任与对齐挑战嵌入到各范式的技术背景中,确保在正确的技术语境下讨论安全问题。
本文的结构如下:第 2 节提出理论框架与双范式分类法;第 3 节详述系统性方法;第 4 节基于范式分析呈现文献研究结果;第 5 节讨论启示、局限与未来方向;第 6 节总结主要贡献。
无人机蜂群正逐渐成为集电子对抗、信息攻防与火力打击于一体的综合性新型武器平台,已成为未来战争的重要形态,也催生了反无人机蜂群系统的快速发展。针对无人机技术发展迅速并成为战场重要威胁的问题,本文分析了典型无人机蜂群系统级目标的特点,研究了防空导弹、高炮/弹炮结合、高能激光与高功率微波等反制无人机蜂群的主要手段,并对反制性能进行了对比分析。提出了一种基于无人机搭载微后坐力自动枪的新型空中反无人机拦截系统,研究了其体系架构、作战概念与流程、涉及的关键技术与创新点,为加强反无人机系统能力提供了技术参考。
NeurIPS 是关于机器学习和计算神经科学的国际会议,宗旨是促进人工智能和机器学习研究进展的交流。NeurIPS 2025 会议将于12月2日至12月7日在圣地亚哥会议中心召开。
理解 AI 系统行为已成为确保安全性、可信性以及在各类应用中有效部署的关键。 为应对这一挑战,三个主要研究社区提出了不同的可解释性方法: * 可解释人工智能(Explainable AI) 聚焦于特征归因,旨在理解哪些输入特征驱动了模型决策; * 数据中心人工智能(Data-Centric AI) 强调数据归因,用于分析训练样本如何塑造模型行为; * 机制可解释性(Mechanistic Interpretability) 研究组件归因,旨在解释模型内部组件如何对输出作出贡献。
这三大方向的共同目标都是从不同维度更好地理解 AI 系统,它们之间的主要区别在于研究视角而非方法本身。 本教程首先介绍基本概念与历史背景,阐述可解释性为何重要,以及自早期以来该领域是如何演进的。第一部分技术深度解析将涵盖事后解释方法、数据中心解释技术、机制可解释性方法,并通过一个统一框架展示这些方法共享的基本技术,如扰动、梯度与局部线性近似等。 第二部分技术深度解析则聚焦于内生可解释模型(inherently interpretable models),并在可解释性的语境下澄清推理型(chain-of-thought)大语言模型与自解释型 LLM 的概念,同时介绍构建内生可解释 LLM 的相关技术。我们还将展示可使这些方法易于实践者使用的开源工具。 此外,我们强调了解释性研究中前景广阔的未来研究方向,以及其在更广泛的 AI 领域中所引发的趋势,包括模型编辑、模型操控(steering)与监管方面的应用。通过对算法、真实案例与实践指南的全面覆盖,参与者将不仅获得对最先进方法的深刻技术理解,还将掌握在实际 AI 应用中有效使用可解释性技术的实践技能。
低成本、精密型无人机近期的快速增长,连同相关的技术挑战,是作战战术中的一个显著特征。随着俄罗斯和乌克兰双方愈发依赖这些成本效益高但工艺粗糙的无人机,他们塑造了一个以高效率和低成本为特色的新战场。俄乌双方均发射无人机以攻击对方。无人机或许能以较低效率定位目标,但仍可造成重大破坏。无人机能够摧毁并碳化单价约400万美元的坦克。然而,无人机的单位成本不超过1000美元。目前市场上大多数反无人机设备(包括激光器、高功率微波武器和射频干扰器)的局限性和低效性,在无人机日益普及的背景下已显而易见。本案例研究表明,现有的反无人机技术无法有效压制双方使用的神风敢死队无人机和武器化无人机。由于这些失败,俄乌两军采用了新技术,例如金属网格和尼龙网屏障,这些措施在一定程度上能有效摧毁和拦截无人机。本文通过案例研究,呈现了自2022年2月以来交战双方对无人机的依赖以及所采用的反无人机战术。本研究调查了当前双方可用于减轻武器化无人机战场影响的解决方案,对其进行了评估,并论证了这些方案固有的缺陷如何推动针对武装无人机的新策略和对抗措施的研发。
本文结构如下:第1部分为引言。第2部分论述无人机在俄罗斯-乌克兰冲突中的重要性。第3部分阐述现有反制措施在摧毁无人机方面的局限性。第4部分介绍在此冲突中出现的新型反无人机解决方案。第5部分重点呈现研究结果,阐明新反制措施及创新方法的优势与不足。最后,第6部分为结论。
俄罗斯乌克兰战争重塑了当代对战争如何进行与维持的理解。本文认为,现代战争的决定性特征不仅是杀伤链(即连接探测、决策与摧毁的序列)的压缩,更是其在持续干扰下的多样性与韧性。基于乌克兰在整合无人系统、数字化战场管理工具和人工智能方面的经验证据,本分析展示了技术加速如何能在带来短期战术优势的同时,暴露出长期的结构性脆弱。俄罗斯广泛使用的电子战、混合攻击和适应性对抗措施表明,杀伤链优势既充满争夺又十分脆弱。来自以色列、叙利亚和伊朗的对比案例表明,当耐力、后勤和工业产能仍具决定性时,自主性与速度并不能保证战略成功。对北约而言,研究结果强调威慑可信度将取决于由韧性指挥网络、可持续供应体系和政治凝聚力所支撑的分布式、持久性杀伤链架构。文章的结论是,决定未来战争节奏的将是耐力,而非速度。
在乌克兰,从探测目标到实施打击的时间已从数小时缩短至数秒。这种由无人机、商业航天系统和日益普及的人工智能所驱动的压缩,揭示了现代冲突的真正重心:对杀伤链优势的争夺。杀伤链被定义为从探测、决策到摧毁的端到端过程,它是所有现代作战的基础。在此框架下,胜利更少取决于火力,而更多取决于连接传感器与射手的链路的速度、韧性与多样性。
乌克兰利用无人系统和数字化战场管理工具来加速其远程杀伤链。俄罗斯则试图通过电子战、网络行动和对基础设施的混合攻击来破坏它们。双方都在不断调整以重获节奏并剥夺对手的优势。其结果是,这场冲突不仅展示了杀伤链压缩的战略重要性,也揭示了其局限性。包括能源、物流和通信网络在内的民用基础设施,已作为维持战争努力的平行杀伤链而出现。这种压缩与干扰的二元性已成为21世纪战争的一个决定性特征。
本文认为,乌克兰战争带来的决定性启示是,战争的未来将更少取决于杀伤链的压缩,而更多取决于维持这些系统的韧性与多样性。杀伤链优势将属于那些能够在军事和民事领域重建、适应并承受持续干扰的行为体。战术速度必须与结构韧性相辅相成。讨论将通过五个部分展开:(1)界定杀伤链理论的演变并阐释其背景;(2)分析乌克兰战场上的压缩、干扰与多样化;(3)评估人工智能赋能作战与自主性的局限;(4)比较乌克兰经验与其他冲突;(5)概述对北约及其伙伴的战略启示。
利害关系十分严峻。假设未能内化乌克兰的教训,那么,将在未来的冲突中处于结构性劣势——杀伤链更慢、更易受混合干扰的打击、更难以维持长期战斗。对手已经在试验人工智能赋能的目标识别、自主集群和对关键基础设施的破坏。如果不做出调整,就可能将主动权让给那些优先考虑节奏而非合法性、优先考虑胁迫而非正当性的行为体。乌克兰的启示并非简单地认为无人机至关重要或网络战表现不佳;而是认识到现代战争是跨越军事和民事领域的速度、韧性与适应能力的竞赛。秩序的稳定将取决于是否能在其对手定义交战规则之前,获得杀伤链优势。
“杀伤链”这一概念根植于冷战后期,当时美国试图通过技术和信息优势来抵消苏联的数量优势。20世纪70年代末,美国国防部制定了后来被称为“抵消战略”的计划,其核心是“突击破坏者”概念:即使用远程精确制导弹药和实时目标指示,在敌方装甲部队抵达前线之前将其摧毁。这是一项将信息优势转化为杀伤力的战略尝试,为后来成为网络中心战的理论奠定了基础。
到1991年海湾战争时,这些理念已发展为“震慑”学说,强调快速、精确打击对敌方战斗意志产生的心理和系统性效果。在后9/11时代,同样的原则在“发现、锁定、终结”的反恐行动框架下,以更小的规模得到应用,其杀伤链从探测到交战被压缩到几分钟之内,以摧毁恐怖主义网络。每一次演变都反映了相同的逻辑:技术加速将取代数量规模,而信息速度将带来决策优势。
美国空军在21世纪初正式将这一过程编码为“发现、锁定、跟踪、定位、交战、评估”循环,该循环至今仍是联合目标锁定理论的核心。随着时间的推移,这一概念已从战术领域扩展到战役和战略层面的关联。在战术层面,杀伤链的运作以秒或分钟计,例如在反恐突袭或无人机打击中。在战役层面,它们跨越数小时或数天,在整个战区协调多种火力与情报、监视和侦察资产。在战略层面,杀伤链的展开可能需要数周或数月,将国家情报、后勤和工业动员整合到战役规划中。
贯穿这些层面的一个统一见解是,杀伤链的有效性不仅取决于速度,还取决于连接性和韧性。乌克兰的经验代表了这一演变的最先进体现:一个实时、多领域的生态系统,其中商业、军事和民用资产持续互动以产生作战节奏。然而,这也暴露了该范式的局限性。当快速的决策周期未能产生战略成果时,冲突就会演变为消耗战,其中耐力、生产能力和适应性比速度更为重要。
乌克兰战争已成为21世纪数据最丰富、技术最活跃的冲突。西方精确制导系统、商业情报监视侦察资产和国内创新的整合,使基辅得以将其远程杀伤链压缩到前所未有的水平。兰德公司报告称,炮击的平均“传感器到射手”周期从2022年的30分钟缩短到2024年的不到1分钟,而对于第一人称视角无人机辅助的接战,甚至短至30秒。
这种压缩基于三项创新:(1)广泛使用第一人称视角无人机进行实时侦察和打击协调;(2)Delta、“克里帕瓦”、GIS Arta等数字化指挥控制工具的普及,整合了战场情报;(3)依赖商业卫星通信和影像,特别是通过“星链”和卡佩拉太空公司的卫星。乌克兰的“无人机军团”计划已培训超过1万名操作员,并计划到2025年中部署约5万架无人机,这标志着民用技术与军事实践前所未有的融合。
消耗仍然严重。皇家联合军种研究所估计,乌克兰每月损失8000至1万架无人机,主要归因于俄罗斯的电子战。然而,这种损失率被快速的本地制造、开源设计和众包维修中心所抵消。乌克兰模式表明,杀伤链优势既依赖于技术先进程度,也同样依赖于工业适应能力。
俄罗斯试图通过系统性干扰来抵消乌克兰的速度优势。其电子战部队(估计沿前线部署了60套主要系统)对GPS和无人机控制频率实施了干扰,降低了情报监视侦察数据流的效率,并瞄准了指挥控制节点。俄罗斯的适应措施相当显著,包括部署“山雀”和“极点-21”电子战系统、“海鹰-30”等人工智能辅助的情报监视侦察无人机,以及广泛使用“柳叶刀”巡飞弹。每一轮压缩都会引发一轮干扰的对抗循环,导致速度带来的回报递减。
近期研究表明,战争的未来不仅取决于压缩,还取决于多样化——即生成并保护多种模块化杀伤链的能力,这些杀伤链能够动态重构以应对攻击。美国和盟国防务界内的“马赛克战争”框架提出了仿照生物韧性建立的“异构、分布式杀伤链”模型。乌克兰的去中心化指挥模式已经反映了这一原则:分层的情报监视侦察网络、冗余的指挥控制节点和多平台协调形成了一个杀伤路径的网状结构。
对杀伤链优势的争夺延伸至战场之外。俄罗斯的混合战略旨在削弱维持军事节奏的民用基础设施。能源电网、海底电缆、物流走廊和卫星网络都已成为目标。这些构成了“民用杀伤链”,其完整性决定了一个国家维持战争的能力。
在2023年至2025年间,欧洲记录了超过40起与俄罗斯代理势力有关的物理或网络破坏行为。诸如2025年挪威布雷芒厄尔大坝的网络入侵、与电缆干扰相关的瑞典哥得兰岛临时停电,以及对波罗的海海底基础设施的破坏等事件,都展示了一种连贯的破坏模式。此外,在伪造的自动识别系统信号下运作的俄罗斯油轮“影子船队”,模糊了商业与军事领域的界限,造成了持续的海上不稳定。这些行动反映出莫斯科长期以来的信念,即非军事措施可以达成战略效果。
这种方法反映了俄罗斯“主动防御”的条令概念,该概念认为早期破坏对手(军事和民用)系统具有决定性意义。针对欧洲关键基础设施的混合行动,旨在提高支持乌克兰的成本、削弱其凝聚力并侵蚀其韧性。由此产生的环境表明,威慑现在不仅需要保护提供火力的杀伤链,同样需要保护支撑能源、物流和信息生态系统的杀伤链。
人工智能已成为乌克兰指挥和目标锁定系统不可或缺的一部分。“德尔塔”平台利用机器学习整合传感器数据以确定目标优先级。“克罗帕瓦”系统实现火力协调自动化,减少决策延迟。人工智能驱动的图像识别协助处理无人机画面和卫星影像,从而实现更快、更明智的交战决策。
然而,人工智能的整合仍然是部分的。乌克兰的系统保留了人为监督,以确保遵守国际人道法。俄罗斯的方法则更为宽松,在其“柳叶刀”无人机中尝试自主目标锁定,并将人工智能辅助制导集成到其情报、监视与侦察网络中。这种差异反映了一个核心的战略分歧:威权国家倾向于将节奏置于合法性之上,而民主国家则必须在速度与合法性之间取得平衡。
对比经验强化了这种困境。在叙利亚,俄罗斯部队利用人工智能支持的情报、监视与侦察和巡飞弹对非正规部队实施精确打击,展现了高节奏但有限的识别区分能力。在以色列,“火力工厂”人工智能系统在加沙行动中实现了前所未有的打击协同,将杀伤链压缩至十分钟以内。相比之下,伊朗在乌克兰使用“沙希德-136”无人机则显示出相反的情况:低成本、低速、可消耗的系统,为持久力而非节奏进行了优化。这些案例共同表明,人工智能赋能的速度加速提供了战术优势,但不必然带来战略成功。
自主性也引入了人力因素。随着乌克兰面临日益严峻的人口结构限制,无人和半自主系统的扩展代表着一种战略适应,旨在保持战斗力,尽管人员可用性在下降。然而,这种替代只是局部的。可损耗自主系统的使用抵消了人力限制并延长了持久力,但并未消除对人员占领和防御地盘的需求。
来自乌克兰及可比冲突的经验证据表明,战术速度不能保证战略成功。快速压缩能带来局部优势,但无法决定消耗战争的结果。兰德公司的分析指出,俄罗斯的后勤能力和生产深度使其能够承受损失,而乌克兰在节奏上取得的优势仅带来了微小的领土收益。正如约瑟夫·奈所指出的,网络和人工智能效应已被证明是传统持久力的“放大器,而非替代品”。
此外,升级风险限制了节奏优势可利用的程度。如果俄罗斯面临战场崩溃,使用战术核武器的可能性依然存在。北约缺乏对等的非战略性核选项,这使威慑复杂化并增加了升级风险。杀伤链加速通过缩短决策时间线,可能无意中压缩了升级阶梯,迫使战略困境在数分钟而非数小时内得到解决。
乌克兰战争也表明,高科技冲突可能比预期持续更久。通过精确打击和自动化取得决定性结果的预期被证明是错误的。相反,工业产能、适应性和社会韧性决定了持久力。对北约的启示在于,杀伤链优势必须与长期维持能力和政治凝聚力相结合。
虽然乌克兰提供了无与伦比的经验洞察,但其经验并非普遍适用。本土国防工业和安全边界使以色列得以整合人工智能与自动化;而乌克兰则缺乏这些条件。相比之下,叙利亚的环境使俄罗斯能够在低风险条件下进行试验,而无需面对对等级别的干扰。伊朗的无人机生产模式展示了可扩展性,但在面对先进电子战时则不具备生存能力。
乌克兰的独特优势在于其开源创新生态系统。民用技术专家、志愿者开发人员和公开来源情报社群实时协作以调整系统。“DeepStateMap”和“Molfar Intelligence”等平台模糊了情报与行动主义的界限,创造了一种社会性杀伤链整合形式。该模式反映了一种持续适应的国家能力——这是未来威慑战略的一个关键变量。
乌克兰战争揭示了西方防务态势中的结构性脆弱。现代冲突的决定性优势不在于平台数量,而在于杀伤链架构的完整性与适应性。对北约而言,适应这种环境需要围绕四个相互关联的重点重新调整其力量设计:速度、韧性、多样化和持续保障。
乌克兰的经验证实,人工智能可以加速指挥与控制流程。然而,缺乏监督的自动化会带来升级和错误风险。北约应建立一个操作性框架,使人工智能能够管理目标发现、数据融合和优先级排序,同时保留人类操作员的交战决策权。这种“人在回路之上”的结构既能保持速度,又不会削弱法律和政治问责制。为将此能力制度化,盟军转型司令部应领导一项关于人工智能赋能目标锁定的常设计划。联合演习应测试各国系统间的算法协调、互操作性和决策延迟。在此规模的整合需要共享数据标准、共同的测试制度以及从战术到战略层级的明确问责链。
乌克兰冲突的每个阶段都表明,电子战和网络干扰能够分割指挥网络。北约不能假设其系统在持续攻击下仍能保持协调一致。因此,盟国应寻求冗余、去中心化的指挥控制结构,使其在脱离上级梯队时仍能自主运行。这包括使用商业卫星、跨域路由协议和适用于降级环境的低带宽战场通信,构成预先配置的后备网络。作战条令应向任务式指挥原则演变,赋予下属单位在通信中断期间的决策权。分布式而非集中化,是对抗频谱拒止和精确打击的唯一可持续防御方式。
消耗战的结果取决于工业速度。北约现有的国防工业基础缺乏灵活应变的能力。盟国应建立一个“集体生产框架”,明确关键制造依赖性,并在成员国间分配产能激增的责任。库存管理必须从库存盘点转向产能评估——即评估弹药、无人机和传感器在火力下的替换速度。这将需要一个由预先商定的生产共享协议和融资机制构成的和平时期网络。这不是回归冷战时期的动员,而是对威慑的重校准,以反映工业而非数量的竞争。
俄罗斯针对欧洲能源、物流和信息基础设施的混合战役表明,民用系统已成为战场的延伸。因此,北约的威慑框架必须将这些“民用杀伤链”视为战略资产。盟国应为成员国设定可执行的韧性基准(例如,电网冗余、海底电缆保护、以及针对网络物理攻击的预先安排恢复机制)。这些标准应通过北约-欧盟合作框架下的集体韧性审计进行监督。此领域的威慑将更少来自拒止,而更多来自展现出的快速重建能力。
更快的决策周期伴随着相应的升级风险。如果俄罗斯面临战场崩溃,有限使用核武器仍是一个可能的选择。因此,北约的威慑规划必须纳入时间性升级控制,即确保压缩的杀伤链不会挤占政治决策窗口。这需要现代化核协商机制,使其能在高节奏下运作。决策模拟应测试升级阈值在信息降级和时间约束下如何保持。整合常规速度管理与核信号传递,对于防止无意的危机升级至关重要。
技术并未取代人类意志的核心地位。乌克兰经验表明,战术系统的重要性低于组织的适应能力和领导层的持久耐力。相应地,北约应投资于人力资本,优先发展认知准备、分布式领导和政治凝聚力。公共传播策略应强调威慑依赖于集体韧性,而非瞬时精确。随时间推移维持民主意志,依然是北约相对于专制对手的比较优势。
乌克兰战争生动展示了现代军队如何在压力下适应。它表明,杀伤链优势是必要的,但不足以确保胜利。技术加速提供了暂时优势;而战略成功取决于持久耐力与恢复能力。
乌克兰的战地创新展示了当商业、军事和民用系统整合时,适应性强的民主国家所能取得的成就。然而,它也暴露了持久的制约:压缩的杀伤链放大了遭受干扰的成本,而韧性成为现代战争的限速因素。俄罗斯尽管遭遇战术挫折却仍能坚持,表明工业和社会耐力能够抵消技术不对称。
本文的核心论点是,杀伤链优势衡量的不是速度,而是系统韧性——即在遭受干扰后维持决策和打击能力的能力。未来的冲突将青睐那些能够维持多重、相互重叠的杀伤链(军事、工业、信息和社会)的行为体,使其能够利用敌方弱点并达成战略目标。胜利将不属于最快的网络,而属于最持久的系统。
对北约而言,这些观察构成了明确的战略要务:盟国必须设计能够承受持续压力的分布式、冗余、持久的杀伤链架构。人工智能将推动这场变革,但其成功同样取决于后勤、人力和政治凝聚力。北约的威慑可信度将不取决于其打击速度,而取决于其在遭受干扰后维持作战的能力。因此,乌克兰的核心教训是结构性的:二十一世纪的威慑将取决于整个杀伤链生态系统的韧性。北约的任务是在下一次冲突检验其韧性之前,将这种韧性制度化。
本文提出了**生成式增强现实(Generative Augmented Reality, GAR)这一下一代范式,将“增强”从传统 AR 引擎的世界组合(world composition)重新定位为一种世界再合成(world resynthesis)过程。GAR 以一个统一的生成式主干(unified generative backbone)取代传统 AR 引擎的多阶段模块,使环境感知、虚拟内容与交互信号能够作为条件输入,被联合编码(jointly encoded)**到连续视频生成过程中。 我们形式化地讨论了 AR 与 GAR 之间的计算对应关系,回顾了使实时生成式增强成为可能的技术基础,并概述了利用其统一推理模型的潜在应用前景。我们将 GAR 视为未来的 AR 范式,能够在真实感、交互性与沉浸感方面提供高保真体验,同时也带来了关于技术、内容生态系统,以及伦理与社会影响等方面的新研究挑战。 增强现实(Augmented Reality, AR)的出现源于长期以来人们希望将数字内容与基于用户真实世界感知与行动的物理环境相融合的目标。早期的相关形式包括 Thomas 和 David(1992)在飞机装配任务中叠加数字指令的研究,以及 Milgram 和 Kishino(1994)提出的“现实—虚拟(Reality–Virtuality)连续统”概念,这些工作将 AR 置于虚拟现实与物理现实之间的一种中间融合形态。随着感知、空间追踪以及实时渲染技术的进步 [Azuma, 1997a],能够使数字内容与真实物理场景对齐成为可能,AR 逐渐演化为一种技术框架,使用户能够将虚拟元素作为其周围环境的一部分进行感知和交互,并广泛应用于工业指导、教育、导航与交互媒体等领域。 然而,随着技术进步不断提升 AR 对内容保真度、交互精确性及自然响应性的要求,传统 AR 架构背后的组合式范式暴露出固有局限。现有系统通常依赖显式建模的资产(assets)、预定义的交互规则以及确定性的图形管线。这种结构使得合成高保真交互变得困难,例如流体材料行为、复杂机械动力学,甚至生物体的响应性。此外,扩展到更广阔、更具表现力的内容空间往往会增加内容创作负担并降低系统稳定性:生成高保真 3D 资产需要大量人工投入,但即便是精心制作的资产,其行为表现力仍然有限,使得真正响应式或逼真的交互难以实现。 与此同时,生成式模型的快速发展,尤其是基于扩散模型的视频生成模型 [Ho et al., 2022; Kong et al., 2024],引入了一种构建视觉体验的全新方式。这类模型能够在高层条件(如文本意图 [Luo et al., 2023]、运动提示 [Bai et al., 2025]、参考帧 [Hu, 2024] 或行为信号 [Guo et al., 2025])的驱动下,生成时间连贯、语义扎实的视频内容,覆盖并超越物理世界与想象世界的场景。与其将场景视为增强的固定背景,生成式视频模型将“现实”表示为一种可学习、可扩展的过程,其中物理一致性与时间演化在统一的潜空间中表达。随着此类模型逐步迈向实时推理 [Yin et al., 2025] 与可控流式生成 [Lin et al., 2025b],它们将计算重点从“叠加内容”转移至“在交互驱动下生成世界的演化”。 本文从概念与技术两方面,对生成式增强现实(Generative Augmented Reality, GAR)作为下一代空间计算(spatial computing)的计算框架,进行前瞻性综述。我们的主要贡献包括: • 形式化传统 AR 组合式管线向生成式世界再合成的计算转变,并从感知基础、控制流、资产管理与渲染机制等方面给出对比性表述。 • 综述支撑 GAR 的关键技术,包括流式视频生成模型、计算效率与质量优化、多模态控制机制以及资产管理方法。 • 分析 GAR 的未来应用图景,以及其在空间体验、具身创造、动态故事生成、协作式世界构建与混合现实生态系统方面的潜在变革能力。
此项工作的触发点源于开源信息中关于陆军于2025年10月9日就战术战场空间(TBS)内的反无人机系统(C-UAS)网格发布信息请求(RFI)的消息。本文试图解释与上述C-UAS网格相关的各种细节。
工作首先阐述了新兴的TBS概念。为此,参考了陆军领域一个非常常见的术语——战术作战区域(TBA)。该术语指的是战斗中发生敌对双方战术级交战的纵深区域。TBA是机械化部队之间机动与反机动、坦克对战以及地面部队为塑造前线战局所采取的战术行动的见证。
除了地面部队,TBA内还充斥著坦克、机械化步兵、炮兵系统、防空炮与导弹系统、战场监视与目标捕获网格、电子战(EW)与网络战资源、工兵、通信资源、网络管理单元等等。传统上且多年来,对TBA的认知一直是二维的,即存在于已接战的纵深地带的长宽范围内的区域。这一认知正逐渐显得不够充分和完整,因为它关乎陆军。更相关的概念是TBS,它包含了TBA及其正上方的空域。
以往对TBA的二维认知之所以不完整,其原因在于TBA可视域内无人机与反无人机作战的出现,以及攻击直升机作为陆军在第三维度的延伸组成部分的融合。这一点将进一步阐述。有记录的首例蜂群无人机攻击发生于2018年1月5日,当时13架DIY无人机袭击了俄罗斯在叙利亚西部的两个资产,即赫迈米姆空军基地和塔尔图斯海军基地。自此以后,小型无人机作为在TBA可视域内执行空中威胁的有效空中威胁平台的出现便一发不可收拾。小型无人机改变了TBA内可视域空战的性质,这主要是因为这些空中威胁平台能够很大程度上避开传统防空雷达传感器的探测。这一点将进一步解释:大多数小型无人机的雷达截面积(RCS)很小。从根本上说,RCS(以平方米表示)是目标对于典型雷达系统可见度的度量。RCS越小,雷达探测到无人机的难度就越大。当前的小型无人机机群的RCS大约在0.01-0.4平方米之间(单旋翼 – 0.01-0.03平方米,四旋翼无人机 0.01-0.10平方米,六旋翼无人机 -0.04-0.32平方米)。将这些数值与典型攻击机的RCS值进行比较:F-16 – 5平方米,F-18 – 1平方米,SU-35 – 1-3平方米,F-35隐形战机 – .0015平方米)。影响是什么?与主战防空武器系统相关的传统传感器无法探测到小型无人机,因此无法引导雷达控制的枪炮和导弹对它们进行射击。需要什么来探测这些目标呢?需要大量全新的基于光电(EO)/射频(RF)/红外(IR)/声学技术的传感器,或能够探测无人机的特定雷达,即无人机探测雷达(DDR)。
为在“反介入/区域拒止”环境中成功实施军事行动,美国海军陆战队需将现役“海马斯”高机动火箭炮系统发射装置及弹药升级为多任务平台,从而剥夺对手的安全庇护与机动行动自由。
“反介入/区域拒止”武器系统与战术的兴起构成重大挑战,可能影响美军在全球的行动能力。若美军未能应对“反介入/区域拒止”威胁,将削弱美国在危机期间向全球投送力量的能力,或使部队在军事行动中陷入脆弱境地。克服“反介入/区域拒止”威胁虽具可行性,但需当前缺乏的新聚焦方向。“海马斯”系统虽作为打击陆地目标的地面间瞄火力装备使用,但其弹道计算机与弹药可通过加装主动导引头进行改造,成为能同时应对海上与陆地目标的多任务平台。该系统具备射程、杀伤力、速度、火力、投送能力及生存性优势,可在全天候条件下以密集精确火力攻击对手威胁体系,并在被发现前快速转移至新阵地。若对“海马斯”发射装置的弹道计算机进行升级,并为“陆军战术导弹系统”加装用于打击移动目标的主动导引头,将形成可支持陆海常规威慑能力的多任务平台。最终,通过提升对移动目标的搜索、捕获与摧毁能力,“海马斯”系统及其弹药将获得以精确打击瓦解各类“反介入/区域拒止”威胁的战斗力。
须保持在潜在对手挑战航行自由与进入权的区域实施力量投送的能力。在这些区域,技术先进的对手将运用非对称武器与能力阻遏介入。美军将投资发展先进能力,以确保在“反介入/区域拒止”环境中持续有效行动。应将“海马斯”系统改进为能击败“反介入/区域拒止”威胁的多任务平台,使能够消除那些挑战其力量投送能力或威胁其航行自由的对手力量。
本报告呈现了北约研究小组的成果,该小组是一项专注于物联网系统数据联合与交换的研究计划。这项工作的推动力来自于对数据驱动型防御日益增长的需求,即跨越国界从军事和民用物联网源获取及时相关信息,这对有效开展行动和决策至关重要。该小组旨在通过探索安全、可互操作的数据共享机制来满足这一需求,确保信息能够送达决策者并被整合到指挥控制系统中。本研究旨在利用尖端技术组合,结合仿真与真实实验,评估并提升分布式物联网环境中的互操作性、可信度和可扩展性。研究探索了物联网资产发现、数据格式和本体论,并高度重视跨平台兼容性与系统联合。为以受控且可重复的方式验证方法,研究团队使用Unity游戏引擎构建了一个合成测试环境。该环境模拟了动态物联网场景,并结合可扩展移动自组网仿真器,包括虚拟资产发现和实时数据共享功能,使研究人员能够在不同操作条件下检验互操作性与联合策略。
研究特别关注系统间的语义互操作性。本研究识别出现有标准中的最佳实践与不足,并通过结合JSON和GeoJSON开发了一种用于物联网资产地理定位和共享传感器测量的自定义格式。报告中记录了使用该格式的经验。研究使用MQTT协议在联合架构内检验了物联网数据共享。指挥控制系统作为MQTT客户端连接到桥接代理,以摄取、分析并响应来自异构源的物联网数据流。这种方法实现了实时态势感知和决策,同时保持了支持动态系统组合和可扩展性的解耦架构。基于MQTT的联合机制确保了跨组织边界的可靠消息传递,从而增强了作战协调与响应能力。
研究的一个重要方面涉及面向人道主义援助与灾难救援应用的众包与群智感知方法。通过利用分布式网络中支持物联网的设备和传感器,众包能够从普通公民和响应人员那里实时收集并共享关键的环境与态势数据(如位置坐标、天气状况和紧急警报)。群智感知通过个人携带或现场部署的传感器设备提高了数据准确性。这种分布式数据收集与分析框架被证明对改善HADR场景中的决策和优化资源分配具有宝贵价值,特别是在基础设施有限地区或大规模紧急事件期间。
研究在拉脱维亚利用5G基础设施进行了实地实验,以评估联合物联网环境下的网络性能与响应能力。这些测试为理解带宽、延迟和设备连接性提供了见解,评估了下一代移动网络对联合物联网部署的影响。为解决数据可信性、完整性和可追溯性问题,项目集成了超级账本Fabric这一许可型区块链平台。该层充当了分布式信任锚,支持对跨联合节点的数据交易和身份管理进行安全审计。研究得出结论:联合物联网系统是可行的,并且可以通过标准化协议、区块链支持的可信机制以及用于仿真验证的合成环境来加强。5G与分布式账本技术的集成为构建具备韧性和互操作性的物联网生态系统提供了一条前景广阔的路径,这对支持现代数据驱动型防御需求至关重要。
实现物联网资源联合的第一步是解决与发现物联网能力相关的挑战。 该小组通过一个名为“MARGOT”的原型解决方案研究了此问题,该方案将在第2章讨论。
为审视现有物联网标准以及现有STANAG标准、架构和最佳实践,以便更好地理解如何将商业和民用物联网技术与能力集成到军事指挥控制中,小组研究了数据模型(在第3章涵盖);小组还针对物联网联合的数据格式提出了自己的方案。
下一步是使用第3章中的数据格式进行实验,并通过概念验证试验来展示将民用物联网与军事指挥控制系统集成的益处和能力。该数据格式承载应用信息。为了在联盟国家间进行通信,仅商定格式是不够的,还必须采用能够传播数据的网络协议。基于IST-150小组“混合战术网络的北约核心服务规划”[6]的建议,我们研究了MQTT协议。第4章涵盖了基于MQTT的联合实验。
物联网适用于许多用例,其中一个用例是人道主义援助与灾难救援。第5章总结了我们的物联网研究,特别是从群智感知和众包的角度。它探讨了基于物联网的解决方案在未来智慧城市环境中支持HADR行动的实际可用性,旨在促进实现协同韧性。
在进行大规模物联网实验时,需要一个物理精度高的平台来模拟物联网传感器的行为。此外,应将合成数据与真实世界传感器的输出相集成,以形成增强的混合模型。第6章讨论了使用Unity游戏引擎支持此类实验。
第7章总结了为指挥控制实施物联网支持的主要发现、经验和建议。该章节的实验基础包括IST-176开发的数据格式(在第3章描述)和MQTT联合实验(见第4章)。
第8章描述了在创建CIS传感器融合演示器过程中所部署的技术、开发流程以及集成与配置步骤,该演示器曾在拉脱维亚的一次5G演习中展示。本章介绍了在不同传感器技术下此集成的结果。
第9章对报告进行总结,并为IST-176工作未充分探索的领域提出了未来工作活动的建议。
附录A重点指出了潜在的改进领域和后续活动,特别是那些源自第8章中5G演习的活动。
附录B.1探讨了将指挥控制系统与物联网集成如何增强军事行动。它通过可部署检查点和联网士兵等场景来说明其益处。
附录B.2提供了IST-176联合工作的早期计划。它讨论了在战术联合环境中指挥控制系统与物联网的集成,回顾了关键的物联网技术和实践,并提出了计划中的实验以展示集成战场资产的可行性。
最后,关于联合方法的说明:IST-176小组探索了三种不同的方法来联合物联网系统并促进信息交换。一种方法利用了信息管理系统桥,该方法在第2章发现架构部分有所描述。第二种方法依赖于联合MQTT代理,在第4章描述。第三种方法依赖于使用星际文件系统和超级账本Fabric,在附录B.3至B.5中探讨。
空中优势,即对空中的控制,是战争艺术的基石。其是取得军事胜利的决定性条件——尽管其本身并非充分条件——因为它能够集中空中力量以实现更广泛的战略目标,并保护其他军种免遭难以承受的损耗水平。通过联合行动中对空中力量的进攻性运用以压制敌方空中力量,是获得空中优势的最佳途径。
西方获取空中优势的能力近年来受到多重挑战,尤其是在一体化防空系统领域。弹道与高超声速技术、无人机、先进电子战技术的普及,以及对超高空领域的新兴利用,这些都是潜在的颠覆性因素,可能绕过或削弱西方传统的空中主宰范式。
雷达隐身与压制敌方防空系统很可能在未来十年内仍是空战战术优势的主导因素。此外,任何能从以平台为中心的思维转向饱和式与分布式战略,并掌握一定数量相关技术的部队结构,都将在战场获得决定性优势。
法国空中力量围绕两大核心任务构建:核威慑与法国本土防空。由于缺乏隐身平台和压制敌方防空能力,加之规模过小的战斗机机队、任务系统的缺失以及弹药储备不足,使其在参与高强度冲突的大型联盟中发挥决定性作用的能力正接近极限。
本研究列出若干建议,其总体目标在于:通过现代化任务系统和增加武器库存,维持现役战斗机机队的短期与中期相关性;从以平台为中心的方法转向分布式传感器与武器网络协同工作,以重获某种形式的规模优势;从中期看,通过确保其精锐能力的成本效益并仅将其用于必要之处,同时构建差异化“近距介入”与“防区外”平台的高低混合搭配,使战斗机航空兵摆脱“奥古斯丁”成本螺旋。
大规模冲突威胁日益增长,强调利用新能力(包括新兴与颠覆性技术(EDT))规划多域作战(MDO)需要通过实验和战争游戏来测试其有效性,以提升部队战备状态。2024年10月23日至25日,在拉斯佩齐亚北约海事研究与实验中心(CMRE)组织并实施了一场关于“EDT支持下的多域作战集体防御规划流程”的兵棋推演。本文总结了该推演结果,并指出了利用建模与仿真(M&S)、推演及人工智能来完善集体防御作战规划流程的一些新实验方向。此次推演旨在全面测试EDT在需要触发《华盛顿条约》第五条的大规模冲突中对实施多域作战的影响。推演具有实验性质,设有3个参演团队(一方红色,两方蓝色——创新与传统型),独立于演习控制组(EXCON)之外,针对同一红色方行动计划制定蓝色方响应部队的战略决策。参演人员为来自波兰及北约总部的经验丰富的规划人员。推演内容为对比两支蓝色部队的行动计划效果差异:一支是配备最新军事技术作战手段并在全作战域行动的创新型部队,另一支是在基础作战域行动且以动能行动为主的传统型部队。推演准备了第二阶段,假定红蓝双方在5-7年后使用未来部队,各有EDT和常规两种选项。红色方攻击想定与第一阶段类似但其力量升级,蓝色方则以其未来部队进行响应。参演人员行动(即行动计划)的效果通过我们自主研发的软件应用进行模拟和计算,以冲突参数形式呈现——包括双方伤亡(按不同兵种细分)、部队推进速度、突入防御纵深、行动持续时间以及行动结束的不同效果(达成目标、部队停滞、超过可承受损失等)。所获结果证实了该方法在研究EDT对多域环境下作战进程影响的有效性,并使专业军事人员(战略与作战规划人员)能够参与一项新颖的“盟军司令部转型”(ACT)实验,了解现代作战规划方法及研究这些作战效果。本文阐述了一些理论要点、一套仿真与分析工具集,并对实验结果进行了概要描述。
摘要——边缘通用智能(Edge General Intelligence, EGI)代表了移动边缘计算的一种范式转变,即智能体能够在动态且资源受限的环境中自主运行。然而,将先进的智能体 AI 模型部署在移动端和边缘设备上仍面临显著挑战,主要源于有限的计算能力、能耗预算与存储资源。为应对这些限制,本文综述探讨了将知识蒸馏(Knowledge Distillation, KD)融入 EGI 的方法,并将 KD 定位为实现无线边缘高效、通信感知与可扩展智能的关键推动力。特别地,我们强调了为无线通信和移动网络专门设计的 KD 技术,如信道感知的自蒸馏、跨模型信道状态信息(Channel State Information, CSI)反馈蒸馏,以及鲁棒的调制/分类蒸馏。此外,我们回顾了天然适用于 KD 与边缘部署的新型架构,如 Mamba、RWKV(Receptance、Weight、Key、Value)以及跨架构蒸馏,它们能够增强模型的泛化能力。随后,我们讨论了多类应用,其中基于 KD 的架构在视觉、语音与多模态任务中实现了 EGI。最后,我们指出了 KD 在 EGI 中的关键挑战与未来方向。本文旨在为研究者在 EGI 时代探索面向移动智能体 AI 的 KD 驱动框架提供全面参考。
关键词——边缘通用智能(EGI)、移动智能体 AI、知识蒸馏(KD)、无线边缘智能
移动边缘计算市场正在经历显著增长,预测显示其市场规模将从 2024 年约 16.5 亿美元增长至 2032 年超过 135 亿美元¹。推动这一增长的动力主要来自对低时延计算以及更高质量体验(QoE)的需求,而移动与物联网设备的数量正快速攀升。这样的发展格局催生了一场重要的技术变革,即所谓的“智能体化(agentification)”,通过集成大型语言模型(LLMs)和其他先进 AI 模块,使边缘设备具备自主能力。这一转变将传统被动的边缘节点转化为主动的移动智能体 AI 系统,使其能够感知环境、进行推理,并在无须人工干预的情况下执行复杂的多步骤任务。 这一智能体中心的范式具有多重优势。移动智能体 AI [1] 能够实现更高程度的自动化与个性化,因为智能体可以学习用户偏好并在设备本地实时适应动态场景。本地计算显著降低了时延,并通过减少对集中式云服务器的依赖提升了数据隐私。此外,这些智能体可以主动预判问题、优化流程,并在不同系统之间协同操作,从而提升运行效率、加速问题解决、增强服务灵活性。通过在网络边缘嵌入复杂的认知能力,移动智能体 AI 为更加智能、响应迅速且安全的应用铺平了道路,这是迈向 EGI 的关键步骤。EGI 被定义为:边缘设备在严格的资源与时延约束条件下,能够执行类似云端 AI 的通用推理与问题求解能力 [2]。 EGI 的实现依赖于移动智能体 AI 的部署。LLMs 为这些智能体提供了认知引擎,在规划、推理和工具使用方面展现出卓越能力。然而,LLMs 巨大的计算、存储与能耗需求与移动端和边缘设备的资源受限特性根本不兼容 [3]。这种“部署鸿沟”是实现 EGI 愿景的首要障碍。 为弥合这一差距,知识蒸馏(Knowledge Distillation, KD)作为一种压缩大型模型的关键方法应运而生。KD 指的是训练一个较小的“学生”模型去模仿一个更大、更强的“教师”模型的行为。这使得学生模型能够在紧凑的模型规模中保留教师的高级能力,从而适用于资源受限的边缘硬件部署 [4]。
利用 KD 推进智能体 AI 并实现其在 EGI 中的部署,已展现出巨大潜力,可显著降低计算开销并增强其在动态无线环境中的适应性。本文旨在提供关于 KD 基础、其在智能体 AI 中的应用,以及支撑 EGI 部署的新型技术的全面综述。表 I 展示了相关综述的深入比较,重点强调 KD、智能体 AI,以及它们在 EGI 中的实现方式。
现有综述主要关注 KD 的发展与优化。例如,Gou 等人 [9] 提供了 KD 的基础性综述,详细介绍了知识类型、训练策略和师生架构等核心组成部分。 此外,也有若干综述研究智能体式 AI 的应用。Hosseini 等人 [1] 回顾了智能体式 AI 在组织中的变革性作用,强调其核心特性以及从“人类辅助 CoPilot”向“自主 Autopilot”模型的战略性迁移。Wu 等人 [8] 则综述了多模态移动智能体的领域,将其方法分为基于提示与基于训练两类,并比较了它们在移动设备上的部署效果。 与此同时,越来越多的研究展示了智能体式 AI 在推动 EGI 发展中的重要性。Xu 等人 [5] 提供了关于边缘智能的全面综述。随着强大 LLMs 的发展,EGI 的研究在最近几年迅速增长。Chen 等人 [2] 提供了基于 LLM 的 EGI 分类框架,将其分为集中式、混合式和去中心化系统,并回顾了其实现方式。He 等人 [6] 提出,将基础模型集成至边缘系统是迈向 EGI 的关键方向,并给出了未来研究挑战。围绕智能体认知核心,Zhao 等人 [7] 则分析了世界模型如何为智能体 AI 提供主动规划与推理能力,使其能够在边缘侧运行。 然而,现有研究缺乏对适用于 EGI 约束条件的系统化 KD 方法的深入探讨,同时也缺乏对智能体 AI 在边缘环境中所面临的资源限制与模型适应性挑战的全面分析。本文填补这一空白,对先进的模型自适应技术(如无线蒸馏 [10]–[13]、以及为边缘而设计的新型架构 [14]–[17])进行系统性讨论。此外,我们展示通过 KD 如何有效适配多种 EGI 部署场景,如自动驾驶车辆 [18], [19]、无人机(UAV)[20], [21]、机器人 [22], [23],以及其他物联网应用 [24]–[26]。 本文的主要贡献总结如下: * 我们针对无线通信场景提供了 KD 技术的专门回顾,强调 KD 如何提升信道估计、反馈压缩以及无线边缘的资源高效模型部署能力。
我们系统综述现有 KD 技术及其优势,强调其与新型架构集成的潜力,并进一步全面讨论在 EGI 中结合 KD 与这些架构所带来的机遇。
我们分析现有模型的局限性,并基于这些不足,介绍超越 Transformer 的新型架构,以及与知识蒸馏结合的调优技术,以适配边缘设备部署需求。
我们进一步从技术与伦理两个维度分析当前 EGI 面临的挑战,并提出潜在的未来发展趋势与解决方案。
**
本文结构如图 1 所示。 第 II 节介绍 EGI、移动智能体 AI 与知识蒸馏的基本概念,并进一步阐述三者之间的相互关系。随后,第 III 节系统阐述了将 KD 融入 EGI 的新型架构与无线蒸馏方法,并展示现有模型取得的研究进展。第 IV 节描述 KD 在 EGI 中的作用及其在多个特定领域的应用。最后,第 V 节总结本综述的经验与目前领域面临的挑战,并从技术与宏观层面提出未来研究方向。
智能体式 AI 指能够在最少人工监督下,通过感知、推理、规划和行动来实现目标的自主系统 [8]。这些系统在一个连续循环中运行,通常称为 智能体循环(agentic loop),由四个核心模块组成:感知(Perception)、规划(Planning)、行动(Action)和记忆(Memory) [8]。
感知模块整合多模态信息,以形成对环境的连贯理解。如图 2 所示,该过程从物理传感器或数字通道采集数据开始。随后对原始数据进行处理,以提取关键特征并识别相关实体及其属性。
规划模块负责制定一系列行动以实现高层目标,通常利用 LLM 作为认知核心。如图 2 所示,智能体规划由静态、预定义的动作序列向动态规划演进——智能体会根据环境反馈持续更新计划,从而确保强健的适应性。
智能体执行所选动作,与环境交互并对其产生影响。动作种类包括模仿人类使用图形用户界面(GUI)进行点击或输入 [27](见图 2),或通过 API 调用进行更深层的系统集成,如修改设备设置或自动化应用导航。在多智能体系统中,通信本身也是关键行动,使智能体能够协调并分配任务 [27]。
记忆模块使智能体能够跨时间保留信息,提供连贯交互所需的上下文,并支持持续学习。如图 2 所示,记忆通常分为两层: * 短期记忆: 维护当前会话的上下文,通常由 LLM 的上下文窗口管理; * 长期记忆: 跨会话存储知识,如已学习的事实和经验,通常由外部向量数据库实现。智能体通过相似度检索访问该知识库,这是检索增强生成(RAG)的核心机制。
此外,**协作(Coordination)与适应(Adaptation)**是智能体式 AI 处理动态环境中长时任务的关键能力 [28], [29]。 * 协作通过动态多智能体协同实现,使多个智能体交互以达成共享目标 [29]; * 适应则是智能体从环境中学习并实时调整行为以追求高层目标的能力 [28],其根本依赖于集成记忆系统与强化学习 [30]、终身学习 [31] 等机制。
强健的协作协议与记忆驱动的适应性之间的协同,使现代智能体式 AI 与众不同,为更鲁棒、更自主的系统铺平道路。
当其部署在无线与边缘计算环境中时,智能体循环的每一部分都必须在有限计算、存储与通信带宽的约束下运行。这一挑战推动了通信协议设计的重大转变:从追求原始吞吐量转向 语义效率(semantic efficiency) 的范式,即优先传输简洁且高价值的信息,而非冗长原始数据 [32]。 面向 6G 的新兴框架提出“内容感知”网络,可智能地优先处理语义关键数据,模糊应用层与网络层的界限,使网络从被动管道转变为信息交换的主动参与者 [32]。
EGI [2] 是一种变革性范式,旨在使边缘设备具备通用的认知能力,使其能够在动态环境中自主地感知、推理与行动。EGI 的终极愿景是在网络边缘实现人工通用智能(AGI):系统不仅能够理解、推理、规划和从经验中学习,且具备接近甚至超过人类水平的认知能力。 与传统边缘智能主要依赖静态、任务特定模型不同,EGI 强调: * 通用性(versatility)
可适应性(adaptability)
自主认知推理(autonomous cognitive reasoning) [5]
为此,EGI 依赖基础模型,使设备能够在无需频繁再训练的情况下执行多类任务,并在实时中动态适应上下文与环境变化。
这种智能根植于“知识”这一更深层概念,它不仅包括事实信息,还包括复杂推理模式、上下文理解与在大规模数据中学习到的决策能力。EGI 的架构在“知识如何分布”上形成一个连续谱:
由云端强大的 LLM 提供全部知识,负责复杂推理与规划;边缘设备仅承担数据采集与命令执行。
通过在每个边缘设备上部署中等规模或小型语言模型(SLM),使其拥有自身知识库,实现本地推理与点对点协作 [33]。
在二者之间取得平衡: * 本地 SLM 提供关键的、常用的低时延知识; * 云端 LLM 处理大范围、更深层的认知任务。
EGI 的潜在应用场景广泛且具有颠覆性,将重塑多个领域的人机交互方式,包括自动驾驶、工业自动化、智慧城市与个性化医疗等。 **
**
**
**
在科技飞速发展的当下,具身智能产业正逐渐崭露头角,成为新质生产力的排头兵和推动高质量发展的重要力量。从古代的“木牛流马”,到人工智能概念提出,到如今的技术突破和应用场景,具身智能经历了“漫长”的发展历程。
自图灵提出人工智能的设想以来,现代具身智能的概念雏形就开始出现,随后在罗德尼·布鲁克斯和罗尔夫·普费弗等人的研究推动下,具身智能的理论体系逐渐完善。近年来,随着多模态感知与交互( Multimodal Perception andInteraction, MPI) 、 深度学习(Deep Learning, DL) 、 强化学 习 ( Reinforcement Learning , RL ) 、 计 算 机 视 觉( Computational Vision, CV) 、 自然语言处理( NaturalLanguage Processing, NLP)、高精度驱动、大模型等技术的快速发展,具身智能迎来了新的发展契机,其应用场景不断拓展,产业规模持续扩大。
具身智能产业的发展对于推动科技创新、提升产业竞争力、改善人们生活具有重要意义。在技术层面,具身智能产业的发展将带动相关技术的创新与突破,如算法优化、机器人硬件升级、传感器、伺服控制电机等,这些技术的进步创新将扩散到其他产业,为培育壮大新兴产业和未来产业提供新动力新支持。在产业层面,具身智能产业的应用将提高生产效率、降低成本、提升产品质量,推动传统产业的转型升级,加快构建现代化产业体系,巩固壮大实体经济根基。在社会层面,具身智能在医疗、教育、养老、娱乐等领域的广泛应用,将为人们提供更加便捷、高效、个性化的服务,改善人们的生活质量,提升社会福祉水平。
随着通用人工智能系统的迅速发展,使这些技术与人类价值、伦理与社会目标保持对齐已成为一项紧迫任务。传统方法通常将对齐视为一种静态的、单向的过程,而本教程将其重新定位为一种动态的、双向的关系:人在其中与 AI 系统不断相互适应。我们提出了一个结构化的人类–AI 对齐框架,并系统性地探讨如何在整个对齐流程中增强人类能动性。 本教程围绕三个核心领域展开:基础(AI 应与哪些价值对齐?)、方法(如何在系统各阶段赋予人类更大的对齐主导权?)、以及实践(AI 部署会带来哪些社会技术影响?)。课程最终将以一个跨学科专家小组讨论作为总结,四位领先学者将围绕新兴的挑战与未来研究方向展开对话。 本教程旨在为参与者提供关键的概念基础、实用的方法论,以及对不断演进的对齐生态的批判性视角。包括幻灯片、代码资源与录制内容在内的全部材料都将在我们的教程网站上公开获取。
https://hai-alignment-course.github.io/tutorial/
通用人工智能的快速发展带来了一个迫切需求:使这些系统与人类价值、伦理原则以及社会目标保持对齐。该挑战被称为 AI 对齐(AI alignment)[1],它对于确保 AI 系统既能有效运作,又能在最小化风险的同时最大化社会收益具有关键意义。传统上,AI 对齐常被视为一种静态的、单向的过程,旨在引导 AI 系统实现期望结果并避免不良后果[2]。然而,这种单向视角已难以满足需求,因为 AI 系统正以动态且难以预测的方式与人类交互,形成反馈循环,影响着 AI 的行为与人类的反应[3]。这种不断演化的互动关系要求我们从根本上转向一种认识——即人类与 AI 之间关系的双向性与适应性[4]。 尽管以往的对齐教程主要将 AI 对齐视为一种满足人类与机构预期的静态拟合过程,本教程则将对齐重新定义为人类与 AI 之间持续演化的互动过程。为阐明人类与 AI 在对齐中的动态角色,我们提出了一个人类–AI 对齐(Human-AI Alignment)概念框架(见图 1),并系统性地解释人类如何能够在对齐流程的各个阶段获得更强的作用能力。具体而言,本教程围绕三个核心问题展开探讨: 1. 基础(Foundations)——人类期望 AI 与哪些价值与规范对齐? 1. 方法(Methods)——如何在构建对齐 AI 的过程中赋能人类? 1. 实践(Practice)——AI 对人类与社会的社会技术影响是什么?
同时,为激发讨论并推动未来研究方向,本教程也将通过综合讨论的形式系统探讨第四部分: 4. 挑战(Challenges)——由三位主讲人与四位跨领域讨论嘉宾,从新兴议题与开放问题出发,对人类–AI 对齐的未来展开深入讨论。
本教程旨在通过以下四大目标为受众带来价值: 1. 全面概览(Comprehensive Overview):提供一个系统化的人类–AI 对齐整体视角,突出人类在对齐流程中的持续参与。 1. 知识与理解(Knowledge and Understanding):提供与人类价值、对齐技术以及 AI 社会影响相关的系统知识。 1. 实践技能(Practical Skills):通过交互式代码笔记本与动手练习,使参与者能够掌握可操作的工具,并在多类 AI 系统中实现基本的对齐策略。 1. 促进讨论(Facilitate Discussion):推动对未来挑战、开放问题与新兴机会的批判性讨论,为参与者未来的研究工作提供灵感。
由于当前对齐框架难以充分应对现存的对齐挑战,对掌握人类–AI 对齐全景(包括技术基础与社会技术影响)的专业人才需求正不断上升。本教程旨在弥补这一缺口,使参与者能够在对齐研究、政策制定以及实际部署中发挥有意义的作用。 通过兼顾概念框架、技术方法与批判性讨论,本教程确保参与者能够全面理解当前对齐研究的真实状态,而不会将对齐视为一个已经解决的问题。互动式专家讨论环节进一步培养了受众分析快速演进领域所需的批判性视角与判断能力,使其能够在未来推动人类–AI 对齐方向的深化与创新。