现代空天防御系统日益依赖自主决策来协调大量拦截弹应对多重来袭威胁。传统武器目标分配(WTA)算法(包括混合整数规划与基于拍卖的方法)在需要类人推理与自适应优先级排序的动态不确定战术环境中显现局限性。本文提出一种大语言模型(LLM)驱动的WTA框架,将广义智能集成到协同导弹制导中。该体系将战术决策过程构建为推理问题,其中LLM评估拦截弹、目标与防御资产间的时空关系以生成实时分配方案。与经典优化方法不同,该方法利用威胁方向、资产优先级和接近速度等上下文任务数据动态调整并减少分配切换。专用仿真环境支持静态与动态两种分配模式。结果证明了其在一致性、适应性与任务级优先级排序方面的改进,为将广义人工智能集成到战术制导系统奠定基础。
随着先进导弹技术、蜂群战术与欺骗策略的发展,现代军事交战日益复杂,使得防御资产的高效分配成为空天作战的关键挑战[Li2024]。武器目标分配(WTA)问题旨在作战、几何与时间约束下将一组拦截弹分配给一组来袭威胁以最大化任务效能。该问题最初被表述为组合优化问题[manne1958wta],后被确认为NP完全问题[Lloyd1986],导致针对静态与动态场景的精确、启发式与元启发式算法研究历史悠久[Li2024, bertsekas1988auction, pentico2007assignment]。在真实任务环境中,由于分配与制导的耦合、目标运动的不确定性以及时间紧迫的决策需求,该问题变得更具挑战性。
经典表述通常将分配与轨迹优化阶段解耦并顺序求解以保持可处理性。然此简化常限制最优性与态势适应性。近期研究引入集成优化框架,将目标分配与轨迹规划统一于单一决策过程[Jin2025]。通过将分配决策嵌入连续优化例程,这些方法共同考量几何、时序与动态可行性,展示了对交战问题分层协同推理的优势。
与优化进展并行,近期研究探索使用数据驱动与机器学习(ML)技术提升WTA适应性[Li2024]。强化学习与基于图的架构在动态分配中展现潜力,但其对大规模训练数据的依赖与有限可解释性限制了在安全关键任务中的部署[shokoohi2022rl]。这些局限推动了对融合算法精度与上下文理解及可解释性的混合推理系统的探索。
大语言模型(LLM)近年作为新型推理系统涌现,在自主决策中具应用潜力。基于大规模多模态数据预训练的LLM可联合处理数值与符号输入,使其无需显式成本函数定义即能执行高层推理与任务分解[Pallagani2024]。将其集成到控制与规划管道中为任务级决策支持开辟新途径,尤其在符号知识与数值优化相交领域。值得注意的是,近期研究表明LLM可直接嵌入机器人反馈环路以增强韧性与适应性[Tagliabue2023]。该工作中,LLM参与任务规划、状态解读与控制调整,即使在未建模动态下也能减少误差并防止不安全行为。此证据表明LLM可通过在传统模型受限处提供上下文推理来补充算法决策。
受此进展启发,本研究探索基于LLM的推理在动态武器目标分配与协同导弹制导中的应用。所提框架将分配生成视为上下文推理任务,其中LLM解读全局任务状态(包括几何、时序与优先级指标)并输出可行拦截弹-目标分配方案而无需预定义权重参数。通过将基于LLM的决策支持集成到分配-制导环路中,该方法保留经典制导律结构的同时利用LLM对动态任务上下文推理的能力。最终系统旨在弥合数值优化与人类级推理间的差距,为不确定条件下的多拦截弹协同提供可解释、自适应与情境感知的解决方案。
本报告系统介绍了扩散模型(Diffusion Models)在现代生成式人工智能中的理论基础、训练与采样机制、模型结构、指导技术以及在图像、音频、文本等多模态任务中的应用。文中首先回顾生成模型的发展脉络,区分了显式概率建模(如自回归、流模型、VAE)与隐式建模(如GAN)。扩散模型被视为一种基于“迭代细化”(iterative refinement)的生成框架,通过逐步向数据添加噪声的前向过程与反向“去噪”过程实现生成,其本质可等价地理解为自编码器、深层潜变量模型、能量模型、基于SDE/ODE的流模型或深度RNN。 报告详细阐述了扩散模型的核心数学机制,包括噪声调度(noise schedule)、预测目标(预测 x0x_0x0、噪声 ϵ\epsilonϵ 或中间变量)、训练损失与采样步骤等关键要素。文件中还对比自回归生成(一步步生成)与扩散生成(逐步去噪)两大范式,指出扩散模型在图像生成领域效果卓越的重要原因源于其“近似频谱自回归”特性,即不同噪声层级天然对应不同空间频率,使训练目标在感知上更合理(低频权重更高)。 在如何控制扩散模型输出方面,报告对“分类器指导”(classifier guidance)与“无分类器指导”(classifier-free guidance)进行了深入解析,展示了在不同页图示中如何通过梯度或条件差分实现模型输出的“强化”与“引导”,从而在多样性与质量之间调节。 文件同时讨论扩散模型在离散数据(如文本)上的挑战与解决方案,包括 Continuous Diffusion for Categorical Data (CDCD) 框架、得分插值(score interpolation)、时间变换(time warping)等技术,并展示其与 BERT 结构之间的关联。此外,也介绍了扩散模型在音频生成、视频生成(Veo 3)、大型图像模型(Imagen 4)中的实际应用。 最后,报告还探讨了蒸馏(distillation)技术如何将多步扩散采样压缩为少步模型,以及迭代精炼如何突破传统深度网络无法训练超深图的限制,对比不同生成范式在语言和感知信号处理中的差异,并展望了未来可能由超大规模 VAE 等模型替代迭代式扩散框架的趋势。 总体来看,该报告全面展示了扩散模型的理论统一性、训练与采样实践、指导方法、模型架构发展、在连续与离散领域的扩展,以及其在当代生成式 AI 中的核心地位。
神经演化(Neuroevolution),即通过进化计算优化神经网络,自 1990 年代以来一直是机器学习领域中不断发展的一个重要分支。其主要关注点在于:当训练目标未知、且良好性能依赖于跨时间的多步决策时(如机器人控制、游戏博弈与决策制定),如何为智能体进化出高性能的神经网络。近年来,神经演化的研究范围进一步扩展到深度学习架构优化、生物智能演化机制的理解,以及面向硬件实现的神经网络优化。 本书将向学生介绍神经演化的基础知识,随后深入探讨多项使神经演化更高效、更通用的高级主题,回顾典型应用领域,并提出未来研究问题。书中还通过一个基于 Python 的软件平台提供动手实践,包括动画、交互式演示、练习与项目环境。我们希望你能从中获益!
为了说明神经演化的本质,考虑下面四个挑战(图 1.1): 想象你想在一款你扮演搜救人员的视频游戏中创建一个角色。这个角色是你的助手:侦察有用信息、协助搬动大型物体等。你希望它能够预判你的意图,并以可信、类人(human-like)的方式行动:像你一样,它的资源有限,但通常能很好地利用这些资源。你要如何设计这样一个角色?它的许多特征很难精确定义:你只能在看到时才知道它是否合理。 再想象一场新的大流行正在出现。它似乎特别影响脆弱人群,似乎在拥挤环境中通过空气传播,并具有较长的潜伏期。这种疾病已在多个国家导致住院,一些国家也采取了应对措施,例如关闭学校、限制航空旅行、开展接触者追踪。最终,病原体可能会被测序,疫苗和药物也可能被开发出来,但我们必须立即应对疾病的传播。我们能否从世界各地的经验中学习,为不同国家、甚至城市与社区的当前状况提出定制化的干预建议? 你是一名零售企业的分析师,试图预测不同商品在不同门店的销量,以最小化库存与浪费。你拥有包含产品描述、季节性变化与经济指标等的历史数据,理论上可以用深度学习进行预测。然而数据量还不够:如此复杂的网络很可能仅仅记住这些小规模数据,而不能在未来很好地泛化。然而,关于其他类型销量、以及其他经济与零售指标的数据却非常丰富。你能否设计一种深度学习架构,利用所有这些其他数据集来提升对你目标数据的预测能力? 你是一名生物学家,研究某一物种的行为,例如鬣狗。你发现它们在某些情况下能够执行极其复杂的协作动作,从而战胜一群狮子。虽然鬣狗在许多社会性任务上都表现不错,但这一行为显得超出了它们通常的能力范围。我们是否正在观察进化本身,即一种可能最终导致社会智能飞跃的适应?这个假设无法在野外或实验室中直接验证。我们是否可以构建计算模拟来为此提供证据? 以上四个例子均展示了神经演化在发挥作用。神经演化,即通过进化计算优化神经网络设计,是人工智能工具箱中一种与众不同的方法。其理念并非优化单一数量化指标,而是寻找能够同时实现多个目标的解决方案,其中一些目标甚至可能定义模糊;不是用它来取代人类的创造力和决策权,而是将其作为一种强大的发现工具来扩展人类能力;不是通过编码和应用已有有效方案来解决问题,而是去发现具有创造性、有效且往往令人惊讶、难以找到的解决方案;不是创建静态、僵硬的系统,而是发展能够在不可预测、不断变化的世界中泛化并适应的行为。因此,通过神经演化,可以开发基于人工智能的决策过程,从而改善工程、科学乃至整个社会。 本书旨在为读者提供神经演化在各种应用中所需的概念性与实践性知识,并推动其进一步发展。本章将从神经演化机制的高层概述开始,将其与其他类型的创造性 AI 进行比较,识别神经演化最有可能产生重大影响的机会。之后本书主体将依次回顾进化计算基础、利用编码与多样性的技术、构建智能体的方法、增强与利用其他学习系统(如深度学习、类脑系统、强化学习与生成式 AI),以及如何进行生物建模并从中获得洞见。
本书对这些主题进行了全面介绍。其目标不仅是让读者熟悉各种神经演化技术,还要提供能够利用这些技术、进一步发展它们并构建应用系统所需的工具。书中回顾了主要算法,并解释了它们的起源与动机;给出了具体的应用示例,并在文献中提供相关参考;指出了若干开放研究领域,并提出进一步研究的建议。此外,本书还通过多个深入的案例研究展示如何利用这些概念解决现实世界中更复杂的挑战与问题。 虽然本书假设读者具备神经网络的基本知识,但对进化计算并不要求较多背景。作为配套资源,书籍网站还提供了若干演示、练习以及一个通用的软件平台。其理念是为读者提供不仅是理论知识,还包括可直接应用和扩展的实用工具。 神经演化这一领域兴起于 20 世纪 80 年代末,其早期成果来自 Belew、McInerney 和 Schraudolph(1992),Harp、Samad 和 A. Guha(1989),Kitano(1990),G. F. Miller、P. Todd 和 Hedge(1989),Mjolsness、Sharp 和 Alpert(1989),Montana 和 L. Davis(1989),Mühlenbein 和 Kindermann(1989),Schaffer、Caruana 和 Eshelman(1990),以及 Whitley 和 T. Hanson(1989)。其发展历程大约每十年都会以综述形式记录下来(Floreano、Dürr 和 Mattiussi,2008;Hougen 和 Shah,2019;Schaffer、Whitley 和 Eshelman,1992;Stanley、Clune、Lehman 等,2019;Yao,1999)。本书并不试图涵盖该领域的全部内容,而是希望以一种“导览式”的方式提供一个逻辑清晰的发展脉络。 因此,全书内容被组织为五个主要部分。 第一部分 通过一系列逐渐增加复杂度的例子,向读者介绍进化计算的基本原理。随后以简单示例引入神经演化的具体情形。首批练习用于帮助读者将这些概念快速具体化和应用(软件平台在下一节介绍)。 第二部分 聚焦神经演化中的两个核心设计要点:网络编码(直接编码与间接编码)以及通过多样性提升搜索效率。通过示例澄清不同编码方法之间的重要区别,比较遗传多样性与行为多样性,引入新颖性搜索(novelty search)与质量-多样性搜索(quality-diversity search),并介绍如何利用多样性进行集成学习(ensembling)。这些方法均是神经演化工具箱中的基础手段,但以往很少被清晰地区分。 第三部分 聚焦智能体:即如何从低层控制演化出有效行为,再提升到高层策略,最终支持决策系统。随后将视角从个体智能体扩展到协作与竞争的群体系统。接下来回顾交互式演化(interactive evolution),其作为结合机器探索与人类洞察的方法。最后,讨论开放式发现(open-ended discovery)的机会与挑战,其灵感来自生物进化,并回顾现有人工系统中开放式创新的实例。 第四部分 将神经演化扩展到与其他学习方法的结合。首先回顾深度学习架构设计方法,讨论其中存在的挑战与未来机会。随后将元学习(meta-learning)扩展到神经网络设计的其他方面,包括损失函数、激活函数、数据使用方式、学习方法及其协同效应。并进一步探讨神经形态系统、强化学习与生成式 AI 的协同组合,指出在这些场景中均可利用进化来优化整体设定,从而提升其他学习方法的效果。 第五部分 探讨神经演化如何为生物进化研究提供洞见,从理解神经结构与模块化,到发育过程、身体与大脑的协同进化,再到生物行为、突破性能力以及语言演化。全文中还识别了许多对未来“生物启发工程系统(bio-inspired engineering)”的潜在启示。结语(Epilogue)指出神经演化在构建具有人工通用智能(AGI)的智能体中可能扮演的角色。 总之,神经演化已成为近期 AI 革命中的第三个新兴组成部分。它使得构建能够生成行为、策略与决策能力的智能体成为可能。而这些智能体在现实世界中拥有广泛应用,可构建更高效、更可靠、成本更低的系统,进而改善人类生活。与此同时,该领域也仍然蕴含大量未来研究机会。
从基础概念到高级实现,本书全面探讨 DeepSeek-V3 模型,重点介绍其基于 Transformer 的架构、技术创新与应用实践。 本书首先系统讲解理论基础,包括自注意力机制、位置编码、专家混合(Mixture of Experts, MoE)机制以及分布式训练策略。随后深入解析 DeepSeek-V3 的技术进展,如稀疏注意力机制、FP8 混合精度训练以及分层负载均衡,这些技术共同提升了模型的内存效率与能耗表现。通过案例研究与 API 集成方法,本书展示了模型在文本生成、数学推理和代码补全等任务上的高性能能力。本书还重点介绍了 DeepSeek 的开放平台,涵盖安全的 API 身份验证、并发开发策略以及面向可扩展 AI 应用的实时数据处理。此外,本书也探讨了行业应用案例,如聊天客户端开发,以及如何利用 DeepSeek 的上下文缓存与回调函数实现自动化与预测性维护。 本书主要面向从事大规模 AI 模型研发的人工智能研究者与开发者,是希望深入理解先进 AI 系统的理论基础与实际落地的专业人士不可或缺的参考资料,尤其适用于关注高效、可扩展应用的读者。
近年来,以大模型为代表的新一代人工智能技术实现爆发式突破,其在自然语言处理、多模态交互等领域的能力跃迁,正深刻重构产业发展逻辑,成为推动经济高质量发展的核心驱动力。在此技术浪潮中,AI智能体(AIAgent)作为大模型的原生应用形态,凭借自主感知、规划决策、工具调用与持续学习的核心能力,完成了从技术概念到产业实践的关键跨越。与传统AI工具相比,AI智能体打破了人机交互依赖明确指令的局限,构建起数字世界与物理世界的智能连接桥梁,有效破解了大模型“有脑无手”的落地困境,成为释放人工智能全产业链价值的关键载体。本报告立足“人工智能+”行动深入实施的战略背景,系统梳理AI智能体的技术体系、产业应用现状与生态格局,深入剖析其驱动产业变革的核心机制,全面研判发展面临的瓶颈与突破方向,最终形成兼具理论深度与实践价值的研究结论,为政产学研用各界协同推进AI智能体创新发展、加速新质生产力培育提供决策参考。
智能体化人工智能(Agentic AI)标志着人工智能领域的一次变革性转向,但其快速发展也导致了认识的碎片化,常常将现代神经系统与过时的符号模型混为一谈——这种现象被称为概念回溯式拟合(conceptual retrofitting)。本综述旨在澄清这一混乱,通过提出一种全新的双范式框架,将智能体系统划分为两条明确的谱系:符号 / 经典范式(依赖算法规划与持久化状态)以及神经 / 生成式范式(依赖随机生成与基于提示的编排)。基于对 2018–2025 年间 90 篇研究的系统化 PRISMA 综述,我们围绕该框架从三个维度展开全面分析:(1) 定义每一范式的理论基础与体系结构原则;(2) 在医疗、金融与机器人等领域的具体实现,展示应用约束如何决定范式选择;(3) 范式特定的伦理与治理挑战,揭示其不同的风险与缓解策略。
我们的分析表明,范式的选择具有战略性:符号系统在安全关键领域(如医疗)中占据主导地位,而神经系统则在高度自适应、数据丰富的环境(如金融)中更为普遍。进一步地,我们识别出关键研究缺口,包括符号系统治理模型的显著缺失,以及对混合神经–符号体系结构的紧迫需求。本文最终提出了一条战略路线图,主张智能体化人工智能的未来不在于某一范式的主导,而在于二者的有意整合,从而构建既具适应性又具可靠性的系统。本研究为未来面向稳健与可信任的混合智能体系统的研究、开发与政策制定提供了关键的概念工具包。
关键词—— 智能体化人工智能(Agentic AI),人工智能,系统性综述,神经体系结构,符号人工智能,多智能体系统,人工智能治理,神经–符号人工智能
人工智能(AI)领域正经历一场范式转变:从开发被动的、任务特定的工具,迈向工程化具备真实能动性的自主系统。现代智能体化人工智能系统 [1, 2] 的特征在于其具备前瞻性规划、上下文记忆、复杂工具使用能力,以及基于环境反馈自适应调整行为的能力。这些系统不再是简单的任务求解器,而是能够作为协作伙伴运行,能够动态感知复杂环境、推理抽象目标,并编排行动序列——既可以独立运行,也可以作为复杂多智能体生态系统的一部分 [3, 4]。
为了建立清晰的概念基础,我们对该领域的核心概念进行区分。**AI 智能体(或单智能体系统)**是一种自包含的自主系统,其设计目标是完成某个特定任务。它主要在隔离环境中运行,尽管可能与工具和 API 交互。其能动性由自主性、前瞻性,以及独立完成任务全过程的能力定义。 例如,一个由大型语言模型(LLM)驱动的强大单智能体在接到“为一款新的移动应用撰写完整的项目提案”的任务时,会自主拆解任务、开展研究、撰写不同部分并格式化最终文档。 与此相对,**智能体化人工智能(Agentic AI)**是一个更广泛的领域与体系结构方法,致力于构建具备能动性的系统。关键在于,它通常涉及 多智能体系统(MAS) 的编排:多个具备专长的智能体协同工作,通过协调与通信解决单个智能体无法处理的复杂问题。 例如,一个为相同任务设计的智能体化人工智能系统会调用一个由多个专门智能体构成的团队:由项目管理智能体负责任务分解,调研智能体收集市场数据,写作智能体撰写内容,质量审查智能体评估输出。他们的协作流程充分体现了智能体化人工智能的本质。 概括而言:AI 智能体可被视为单个高能力工作者,而智能体化人工智能则体现了利用能动性、并常通过架构化与管理整支“智能体团队”来实现系统目标的原则。
然而,这一快速演进也导致了对该领域理解的碎片化甚至时代错置。先前综述指出的一个核心问题是 概念回溯式拟合(conceptual retrofitting):即错误地使用经典符号框架(如信念–愿望–意图(BDI)模型 [5]、感知 来描述基于大型语言模型(LLMs)构建的现代系统 [8]。这些模型基于截然不同的机制运行,例如随机生成与基于提示的编排。因此,将它们强行套入符号时代的概念框架,会掩盖 LLM-驱动智能体 [9, 10, 11, 12] 的真实运行机制,并在本质上不兼容的体系结构范式之间制造一种虚假的连续性——无论这种套用发生在单一复杂智能体还是协调的多智能体系统中。 本文针对这些问题,首先通过建立清晰的历史脉络(图 1)展开,界定人工智能在五个不同但相互重叠的时代中的演化路径。
符号人工智能时代(1950s–1980s)[13] 奠定了人工智能的基础愿景,以逻辑和显式人类知识为核心。该时期以规则系统和专家系统(如 MYCIN 与 DENDRAL [14])为主,它们依赖精心手工设计的符号规则运行。智能被视为一种自上而下的演绎过程,代表了符号范式的最纯粹形式。 机器学习(ML)时代(1980s–2010s)[15, 16, 17] 标志着从硬编码逻辑向能够从数据中学习的系统的关键转变。尽管仍高度依赖人工设计特征,这一时期引入了统计机器学习模型,如支持向量机和决策树,推动了从分类到推荐等众多应用。它是连接符号时代与之后时代的过渡阶段,但尚未具备自动特征学习的能力。 深度学习时代(2010s–至今)[18, 19, 20, 21, 22] 的到来由算力的增强和大规模数据集的出现推动。深度神经网络(包括卷积网络与循环网络)使得从原始数据中自动学习层次化表示成为可能。该时代革新了视觉、语音与文本中的模式识别,突破了长期存在的感知瓶颈。然而,尽管深度模型非常强大,它们在本质上仍主要作为复杂的模式分类器,而非自主智能体。 在此基础上出现了 生成式人工智能时代(2014–至今)[23, 24, 25, 26, 27],由生成模型的突破推动。早期的生成对抗网络(GAN)很快被 2017 年提出的 Transformer 架构所超越,使 GPT、BERT 等大型语言模型成为可能。这些系统从“感知”迈向“生成”,能够产出连贯的文本、代码与多媒体内容。它们提供了现代智能体化人工智能得以实现的核心基质——一个强大的、通用的统计推理器。 最终,智能体化人工智能时代(2022–至今) 代表了当前的前沿阶段,其核心是将 LLM 的生成能力用于行动与自治。此时代由 AutoGPT 等智能体 [28, 29, 30] 的兴起所标志,它们能够通过规划和工具使用来追求复杂目标。越来越多的智能体进一步演化为多智能体系统 [31, 32, 33, 34, 35],如 CrewAI 和 AutoGen 等框架,通过专门角色与编排式协作,使智能体团队能够解决复杂问题。与符号范式的算法化推理不同,该阶段由神经范式主导,能动性从生成式模型的随机编排中涌现。 这一时间序列为理解现代智能体化人工智能提供了必要背景,但同时也揭示了一个关键的概念裂痕:智能体化 AI 时代并非符号 AI 的线性继承,而是构建在完全不同的体系结构基础之上。
为解决这一点,我们提出了一个全新的概念框架(图 2),旨在避免回溯性混淆,通过清晰区分智能体化 AI 的符号与神经两条谱系。该双轴分类法为严谨分析该领域的理论根基、体系结构创新与实践部署提供了统一视角。
理解现代智能体化 AI 的最佳路径,是结合其历史演化(图 1)进行考察。这一演化从符号时代的确定性规则系统,跨越机器学习与深度学习的数据驱动革命,最终抵达大型语言模型与生成式 AI 的变革性出现 [36, 37]。
然而,仅凭时间顺序并不足以提供严格的分析基础。当前讨论中的核心挑战,是将现代神经型智能体体系结构回溯性地套入符号时代的框架。为解决此问题,我们在图 2 中提出了一个双范式分类法。该框架根据两个独立维度对智能体系统进行划分:体系结构范式(符号 vs. 神经) 与 能动性与协调程度(单智能体 vs. 多智能体)。 该模型并非用于展示演化,而是为了提供一个结构化的分析视角。 本综述围绕该框架组织结构,综合了三个紧密关联的层次:
涵盖自主性与能动性的核心原则 [38],以及马尔可夫决策过程(MDPs)与部分可观测 MDPs(POMDPs)[39, 40] 等决策模型。值得强调的是,这些模型虽然在符号范式中形成理论语言,但现代系统采用了完全不同的方式实现这些概念。
聚焦驱动神经范式的现代基础设施。我们分析了 LangChain [41]、AutoGen 与 CrewAI 等系统,它们通过提示链式调用、对话编排、动态上下文管理等机制实现能动性——这显然不同于经典谱系的符号规划方式。
探讨智能体系统在医疗 [42]、金融 [43]、科学发现 [44]、法律推理 [45] 等领域的实际部署。基于我们的框架,我们能够将不同应用映射到相应范式,并分析其独特的实现挑战。 **
**
自主武器系统(AWS)的发展——有时也带有“致命性”标签,缩写为LAWS——多年来一直处于激烈讨论之中。众多政治、学术或法律机构及行为体都在辩论这些技术带来的后果和风险,特别是其伦理、社会和政治影响,许多声音呼吁严格监管甚至全球禁止。尽管这些武器备受公众关注且被认为影响重大,但“AWS”这一术语具体指代哪些技术以及它们具备何种能力,却往往出人意料地不明确。AWS可以指无人机、航空母舰、无人空中/地面/海上载具、机器人及机器人士兵,或计算机病毒等网络武器。
这种不确定性之所以存在,尽管(或许正是因为)已有大量定义试图从功能上(例如“一旦激活,自主武器‘无需操作员进一步干预即可选择和攻击目标’”:美国国防部,2023年:第21页)或概念上(源自对自主系统、人工智能或机器学习的理论化)来明确该术语。定义仍为不同类型的技术留下了广阔空间,并且结合关于人工智能的更广泛讨论,也为未来发展的潜力和预测提供了可能。除了术语的模糊性,这些系统在何种意义上以及在多大程度上可被称为“自主”的本质也依然含糊不清。尽管自动化能力的发展无疑在推进(Scharre, 2018; Schwarz, 2018; Packer and Reeves, 2020),人类能动性和干预方式的程度不断降低,但完全超越人类控制、因此被许多人担忧的完全自主武器,在很大程度上仍是一种概念上的可能性,而非实际的军事现实。
这些模糊性导致了巨大的意义空白,而这些空白又往往被想象所填充——这是新技术,特别是人工智能的常见做法(Suchman, 2023)。潜在的现实可以扮演重要角色,因为它们是将专业知识传递到社会其他领域(包括新闻、政策制定、研究、教育和民主决策过程)的工具。因此,关于AWS功能及其后果的看法,受到军事、国家和技术未来想象的启发和塑造。这些想象包括地缘政治情景、伦理问题、国家政策或科幻小说。在安全与军事政策中,这些不同现实之间的相互联系甚至被用作一种方法论——例如,“红队演练”——这意味着应用对潜在未来的创造性虚构描述来为实际决策提供信息(The Red Team, 2021)。另一种应用是兵棋推演,这是一种预见未来军事场景的方法,其起源至少可追溯至19世纪,但已适应当代技术和媒体环境,包括虚拟现实和使用大语言模型的基于人工智能的模拟(Goecks and Waytowich, 2024)。
自主武器的前提,被视为占据着一个自身特有的混合空间,这促使我们探索随之而来的无数现实。本书的基本原理认为,只有承认实际技术发展与其相关的愿景和虚拟场景之间持续而复杂的动态互动,才能理解所讨论的这些现实。正是在这种不确定性——想象、可能性和虚构在此交织——的背景下,自主武器变得极具影响力。它们激发出情感、话语、鼓动、(反)行动、投资、竞争、政策或技术与军事蓝图。
关于自主武器主题的出版物通常侧重于其法律、政治或伦理影响(例如,Bhuta等人,2016;Krishnan,2016),这是评估这些技术的第一层级。也有一些著作讨论了其独特的表征(Graae and Maurer, 2021),以及我们见证和体验它们的方式(Bousquet, 2018; Richardson, 2024)。这些著作的基础也基于前面概述的不同现实。本书引入另一种分析自主武器现实的方法,提出一种第二层级的方法:例如,一个伦理问题不仅仅被框定为伦理问题本身,即沿着提出以下规范性问题的思路:“自动化杀人机器会引发哪些道德问题?” 在本书建议的方法中,伦理问题反而被理解为一个促成因素,它有助于在大众文化、政治、新闻或研究中构建、传播和维持对致命性AWS的特定理解。简言之,伦理话语共同创造了其对象的现实。因此,本书所采取的视角将AWS的不同现实置于前台,进而旨在为现有的辩论揭示其(常常是隐含的)基本假设。
本书这篇引言性章节首先勾勒了军事装备日益自动化的技术和政治发展进程。这些发展在理论上被阐述为既具构成性又具述行性,以涵盖全球范围内在理论和实践中对AWS的动态变化和不同理解。随后,本章就这些现实提出了六点思考,有助于界定和巩固AWS的动态含义,这些含义往往在公众、军事和监管领域受到极大关注。章节最后概述了全书的结构并简要总结了各章的贡献。
全书结构分为三个独立部分,分别探讨自主武器的当前现实。每个部分都从特定的视角范式分析自主武器:1. 叙事与理论,2. 技术与物质性,以及 3. 政治与伦理。每个部分的开篇由一位艺术家及其对自主武器的构想引入。这种划分基于对跨越这些领域所阐发的不同意义的分析,这些意义构成了AWS的现实,并强有力地影响着如何感知和对待这项技术。
Agentic AI(智能体化人工智能)代表了人工智能领域的一场变革性转向。然而,由于其发展速度迅猛,当前学界对其概念的理解仍相对碎片化,常常将现代神经系统与过时的符号模型混为一谈——这一现象被称为“概念性回溯(conceptual retrofitting)”。本综述旨在打破这一混乱,通过提出一个全新的“双范式框架”,将智能体系统划分为两条截然不同的谱系:符号/经典范式(依赖算法规划与持久状态)与神经/生成式范式(依赖随机生成与提示驱动的编排)。
基于对 2018–2025 年间 90 篇研究的 PRISMA 系统综述方法,我们围绕该框架从三个维度展开全面分析: (1) 各范式的理论基础与架构原则; (2) 在医疗、金融与机器人等领域的具体实现,展示应用约束如何决定范式选择; (3) 不同范式特有的伦理与治理挑战,揭示风险模式与缓解策略的差异性。
我们的分析表明,范式选择具有战略性:符号系统在安全关键领域(如医疗)中占据主导,而神经系统则更适用于数据丰富、需要高度适应性的场景(如金融)。此外,我们识别出关键研究缺口,包括:符号系统在治理模型上的显著不足,以及构建混合神经–符号架构的迫切需求。
最终,本研究提出了一条战略路线图,指出智能体化 AI 的未来不在于某一范式的单独取胜,而在于两者的有机融合,以构建既具适应性又具可靠性的系统。此项工作为未来在智能体系统的研究、开发与政策制定方面提供了必备的概念工具包,以推动稳健且可信赖的混合智能系统的发展。
**关键词:**智能体化 AI · 人工智能 · 系统性综述 · 神经架构 · 符号 AI · 多智能体系统 · AI 治理 · 神经–符号 AI
人工智能(AI)领域正经历一场范式转移:从构建被动的、任务特定的工具,转向工程化能够展现真正“能动性(agency)”的自主系统。现代智能体化 AI 系统(Wissuchek and Zschech 2025;Viswanathan et al. 2025)具备主动规划、上下文记忆、复杂工具使用,以及基于环境反馈自适应行为等能力。这类系统不再只是问题求解器,而是协作伙伴,能够动态感知复杂环境、推理抽象目标,并自主编排一系列行动——无论是独立运行还是作为复杂多智能体生态系统的一部分(Xie et al. 2024;Du et al. 2025)。 为了建立清晰且精确的概念基础,我们首先区分该领域的核心概念。AI 智能体(或单智能体系统)指为完成某项目标而设计的自包含自治系统。它主要以独立方式运行,虽然可能与工具或 API 交互,但其能动性体现为自治性、主动性,以及能够独立完成任务的能力。 例如,一个基于大型语言模型(LLM)的单智能体若被赋予任务“为一个新的移动应用撰写完整的项目提案”,它将会自主拆解任务、开展研究、撰写各部分内容,并完成最终文档的格式化。 相比之下,智能体化 AI(Agentic AI)是一个更广泛的领域与架构范式,旨在构建能够展现能动性的系统。关键在于,它通常涉及多智能体系统(MAS)的编排,其中多个专门化智能体协同工作,通过协调与通信来解决单一智能体无法胜任的复杂问题。 例如,一个用于执行相同任务的智能体化 AI 系统将部署一组专业智能体:由项目管理智能体负责将任务拆分为子目标,研究智能体收集市场数据,写作智能体撰写内容,而质量保障智能体对结果进行审查。他们之间的协作流程正是智能体化 AI 的典型体现。 总结而言,可以将 AI 智能体视为一个功能强大的“单个工作者”,而智能体化 AI则代表一种利用能动性的原则,通常通过设计并管理整支智能体团队来实现。 然而,这一快速演进也带来了概念上的碎片化与时代错置。先前研究指出的关键问题是概念性回溯(conceptual retrofitting)——即错误地使用经典符号框架(如 BDI 模型(Archibald et al. 2024)或 PPAR 感知–规划–行动–反思循环(Zeng et al. 2024;Erdogan et al. 2025))来描述基于大型语言模型(LLM)的现代系统(Plaat et al. 2025),而这些系统在根本上依赖随机生成与提示驱动的编排。这类做法模糊了 LLM 智能体的真实操作机制(Gabison and Xian 2025;Wang et al. 2024;Zhao et al. 2023;Chen et al. 2024),并人为制造了不同架构范式之间的虚假连续性。
已有多篇综述对智能体化 AI 的部分方面进行了探讨,但大多数研究要么范围有限,要么聚焦于单一技术层面、应用领域或高层概念,未能呈现该领域的全貌,也未有效回应概念性回溯的核心挑战。表 1 对这些综述的关注点、贡献与局限性进行了总结。 为解决这些问题,本文首先建立清晰的历史语境(如图 1 所示),展示 AI 的演化历程可分为五个彼此重叠但相对独立的时代:
该时代奠定了 AI 的最初愿景,以逻辑与显式知识为基础。MYCIN、DENDRAL 等专家系统(Swartout 1985)依赖手工构建的符号规则,体现了一种自上而下、演绎式的“纯符号范式”。
这一转变阶段摆脱了完全硬编码的逻辑,转向从数据中学习。尽管仍高度依赖人工设计特征,但统计学习模型(如 SVM、决策树)推动了分类、推荐等应用发展,为后续深度学习奠定基础。
深度神经网络的普及使得系统能够自动学习层级表征,这一时代革新了视觉、语音与文本的感知能力。然而,这些模型仍主要作为强大的模式识别器,而非自治智能体。
GAN 的突破与 Transformer 架构(2017)推动了 LLM(如 GPT、BERT)的快速发展,使 AI 从感知迈向生成,能够合成连贯的文本、代码与媒体,为现代智能体化 AI 提供了核心底座——通用、强大的统计推理引擎。
这一前沿阶段聚焦于利用 LLM 的生成能力实现行动与自治。此时代的典型系统包括 AutoGPT 等能够通过规划与工具使用来追求目标的智能体(Durante et al. 2024;Masterman et al. 2024;Piccialli et al. 2025),以及向多智能体系统演化的高级框架,如 CrewAI 与 AutoGen(Acharya et al. 2025;Viswanathan 2025;Plaat et al. 2025;Schneider 2025;Hosseini and Seilani 2025)。与符号范式中的算法推理不同,这一阶段的能动性源自生成式模型的随机编排机制。
这一历史脉络揭示了一个关键事实:智能体化 AI 并非符号 AI 的线性延伸,而是建立在完全不同的神经架构基础之上。为此,我们提出一个全新的概念框架(图 2),以明确区分智能体化 AI 的符号谱系与神经谱系,从而避免概念性错置,并提供统一的理论视角。
提出全新的双范式分类法
引入并应用一个新的分析框架(图 2),明确区分符号与神经谱系,避免概念性回溯并实现精准分类。 1. 架构澄清
阐明现代神经框架的运行原理,如提示链式推理与对话编排机制,而非符号式规划。 1. 实证映射
基于 PRISMA 方法系统性调研 90 篇文献,并使用双范式框架对其进行分类,分析研究趋势并基于正确标准评估其架构。 1. 治理锚定
将伦理、责任与对齐挑战嵌入到各范式的技术背景中,确保在正确的技术语境下讨论安全问题。
本文的结构如下:第 2 节提出理论框架与双范式分类法;第 3 节详述系统性方法;第 4 节基于范式分析呈现文献研究结果;第 5 节讨论启示、局限与未来方向;第 6 节总结主要贡献。
摘要: 大型语言模型(LLMs)正迅速从文本生成器演化为强大的问题求解器。然而,许多开放任务要求具备批判性思维、多来源信息整合以及可验证的输出,这些超出了单轮提示或标准的检索增强生成(RAG)所能实现的能力。近期,大量研究开始探索 Deep Research(深度研究,DR),其目标是将 LLM 的推理能力与外部工具(如搜索引擎)相结合,从而使 LLM 具备作为研究型智能体执行复杂、开放式任务的能力。 本综述系统而全面地审视了深度研究系统,包括清晰的发展路线图、基础组成模块、实践层面的实现技术、关键挑战以及未来方向。具体而言,我们的主要贡献如下: (i) 我们形式化提出了一个三阶段的发展路线图,并将深度研究与相关范式区分开来; (ii) 我们介绍了四个关键组成部分:查询规划、信息获取、记忆管理与答案生成,并为每一部分提供了细粒度的子类目体系; (iii) 我们总结了优化技术,包括提示工程、监督微调以及智能体强化学习; (iv) 我们统一整理了评测标准与开放挑战,旨在为未来发展提供指导与推动。 随着深度研究领域的快速演进,我们将持续更新本综述,以反映该领域的最新进展。
经过大规模网页语料训练的大型语言模型(LLMs)正迅速从流畅的文本生成器演化为能够在实际复杂应用中执行长程推理的自主智能体 [224, 83, 465, 288]。它们在多个领域展现出强泛化能力,包括数学推理 [112, 466]、创造性写作 [95] 以及实用的软件工程 [118, 140, 166]。许多现实世界任务本质上是开放式的,要求批判性思维、基于事实的信息,以及能够独立成文的回应。这远远超出了单轮提示或静态参数化知识所能提供的能力范围 [122, 183, 289]。为弥补这一能力缺口,**Deep Research(深度研究,DR)**范式 [237, 97, 66, 481, 125, 202] 应运而生。DR 将 LLM 纳入一个端到端的研究工作流中,该工作流迭代式地分解复杂问题、通过工具使用获取证据,并将经过验证的见解综合为连贯的长篇回答。 尽管该领域发展迅速,但仍缺乏对 DR 的关键组成、技术细节与开放挑战进行系统性分析的全面综述。现有工作 [458, 31] 多集中于相关领域的发展,如检索增强生成(RAG)与基于 Web 的智能体系统 [401, 200, 285, 456, 316]。然而,与 RAG [89, 72] 相比,DR 采用更灵活、更自主的工作流,不依赖手工构建的流水线,并旨在生成连贯且基于证据的报告。因此,对其技术图景进行清晰梳理已成为紧迫但仍具挑战性的任务。本综述通过提供对 DR 的全面综合来填补这一空白:将其核心组件映射到代表性的系统实现上,整合关键技术与评测方法,并为建立一致的基准测试和推动 AI 驱动的研究持续发展奠定基础。 在本综述中,我们提出了一个面向 DR 系统的三阶段发展路线图,展示其从智能体式信息寻求到自主科学发现等广泛应用。基于该路线图,我们总结了常见 DR 系统的任务求解工作流中的关键组成部分。具体而言,我们介绍 DR 的四个基础组件: (i) 查询规划:将初始输入查询分解成一系列更简单的子查询 [250, 426]; (ii) 信息获取:按需调用外部检索、网页浏览或多种工具 [167, 221]; (iii) 记忆管理:通过受控更新或折叠机制保证与任务求解相关的上下文 [243]; (iv) 答案生成:输出具有明确来源标注的综合性结果,例如科学报告。 这一范围区别于标准 RAG [89, 72] 技术,后者通常将检索视为启发式增强步骤,而不具备灵活的研究工作流或更广泛的行动空间。我们同时介绍如何优化 DR 系统以有效协调这些组件,并将现有方法划分为三类: (i) 工作流提示(workflow prompting); (ii) 监督微调(SFT); (iii) 端到端强化学习(RL)。 本文的结构安排如下:第 2 节给出 DR 的明确定义及其边界;第 3 节介绍 DR 的四个关键组成部分;第 4 节介绍构建 DR 系统的技术细节;第 5 节总结重要的评测数据集与资源;第 6 节讨论未来方向中的挑战。 综上,本综述的主要贡献如下: (i) 我们形式化了 DR 的三阶段路线图,并清晰地区分其与标准检索增强生成等相关技术的差异; (ii) 我们介绍了 DR 系统的四个关键组件,并为每一组件提供细粒度的子类目体系,以全面呈现研究循环; (iii) 我们总结了构建 DR 系统的详细优化方法,为工作流提示、监督微调与强化学习提供实践性洞见; (iv) 我们整合评测标准与开放挑战,旨在支持可比性报告并引导未来研究。
Deep Research(DR)旨在赋予大型语言模型(LLMs)一个端到端的研究工作流,使其能够作为智能体,以最少的人类监督生成连贯且基于来源证据的报告。此类系统自动化整个研究循环,涵盖规划、证据获取、分析与报告撰写。 在 DR 框架下,LLM 智能体负责规划查询、从异构来源(如网页、工具、本地文件)获取并过滤证据、维护和更新工作记忆,并综合生成具有可验证性且带有明确引用的回答。下面,我们正式介绍一个三阶段的发展路线图,用以刻画快速演进、以能力为导向的 DR 研究图景,并将其与传统 RAG 范式进行系统对比。
我们将 DR 视为一种能力演进轨迹,而非价值层级。以下三个阶段描绘了系统可可靠执行的能力从“精确证据获取”到“可读分析整合”,再到“形成可辩护洞见”的逐步扩展。
第一阶段的系统主要擅长寻找正确的来源并提取答案,几乎不进行综合。这类系统通常会对用户查询进行重写或分解以提升召回率,检索并重排序候选文档,应用轻量过滤或压缩,并生成带有明确引用、简洁而准确的答案。核心强调点是:忠实于检索内容与可预测的运行效率。 典型应用包括开放域问答 [227, 165]、多跳问答 [425, 344, 265] 以及其他信息寻求任务 [271, 444, 333, 70, 215],这些任务的“真值”通常局限于少量可检索来源。 评测重点包括: * 检索 recall@k * 答案精确匹配 * 引文正确性 * 端到端延迟
体现了该阶段对每 token 的准确性与操作效率的关注。
第二阶段的系统跳脱单点事实提取,能够生成连贯、结构化的报告,整合来自多个异构来源的证据,并处理冲突与不确定性。研究循环在此阶段变得显式迭代:系统规划子问题、从多种原始内容(如 HTML [323]、表格 [44, 226]、图表 [208, 208])检索与抽取关键证据,最终综合为叙事性报告。 典型应用包括市场与竞争分析 [469, 347]、政策简报 [356]、满足复杂约束的行程规划 [331],以及其他长程问答任务 [66, 434, 378, 49]。 评测重点从短文本的表层匹配转向长文本质量,包括: * 细粒度事实性 [43, 216] * 引文可验证性 [310, 86] * 结构连贯性 [21] * 关键点覆盖度 [379]
Phase II 以适度增加的计算与复杂度换取显著提升的清晰度、覆盖度与决策支持能力。
第三阶段代表着 DR 的更广阔、更具野心的发展方向,旨在让智能体推进科学理解与创造,而不仅仅是信息整合。在此阶段,DR 智能体不仅要汇聚证据,还需能够: * 生成假设 [490] * 执行实验验证或消融研究 [223] * 批判已有论点 [498] * 提出新的观点 [386]
典型应用包括论文审稿 [506, 248, 498]、科学发现 [460, 292, 291] 与实验自动化 [362, 472]。 评测重点包括: * 发现的创新性与洞见性 * 论证结构的连贯性 * 结论的可复现性(包括是否能够从引用来源或代码重新推导结果) * 不确定性校准与透明性
许多现实任务本质上是开放式的,需要批判性思维、基于事实的信息,以及可独立成文的回答。这些需求暴露出现有方法(包括传统 RAG 或简单扩大 LLM 参数规模)难以解决的核心局限。以下总结了三类关键挑战:
传统 RAG 工作流基于静态检索,依赖预先索引的语料库 [232, 225]。然而现实任务通常要求主动与动态环境交互,如搜索引擎、Web API、代码执行器等 [487, 223, 362]。 DR 系统扩展了这一范式,使 LLM 能够执行多步、工具增强的交互,从而获取最新信息、执行操作并在数字生态中验证假设。
研究型任务通常包含多子任务协作 [378]、任务上下文管理 [411],以及中间过程的迭代优化 [290]。 DR 通过闭环控制与多轮推理支持智能体实现自主规划、修正与优化,以达成长程目标。
LLM 在开放式任务中容易产生幻觉与不一致性 [109, 471, 123, 13, 52]。 DR 系统通过可验证机制,将自然语言输出与真实证据对齐,从而构建更可靠的人类—智能体交互接口。
人工智能正日益融入军事系统,这一事实已改变现代战争形态,并重塑了作战方法、战术及伦理视角。本文聚焦人工智能在自动化战争中的应用,特别关注以色列-加沙战争案例。研究审视以色列使用的基于人工智能技术——如自主无人机、预测性瞄准软件和算法监视系统——如何颠覆性提升作战与情报活动效率。该案例为人工智能军事化全球化及其对国际安全、人道法和伦理的影响提供了深刻洞见。如问题陈述所示,当前缺乏可规范致命行动中人工智能应用(尤其在加沙等平民聚居区)的完善法律框架与问责机制。文献综述总结了学术界对人工智能双重性的观点:既是战略优势又是人道主义威胁。探讨了人工智能如何提升精度、速度与态势感知能力,同时带来透明度缺失、算法偏见和伦理问责等新挑战。综述还指出,人工智能辅助系统或可降低士兵作战风险,但若缺乏有意义的人类控制,可能对平民构成危害。本研究采用定性分析方法,关键利用政策报告、人权组织资料及同行评审学术出版物等二手数据,考察人工智能在战争中应用的伦理、法律与作战维度。结果表明,尽管人工智能提升了以色列军事情报与瞄准能力,但也加剧了问责性、相称性原则及人权侵害问题。结论强调需建立国际法律工具、伦理准则与管控机制以规范军事人工智能应用。政策建议要求实现透明度、实质性人类干预与国际合作,确保人工智能技术应用符合人道主义与全球和平理念。
在具体作战层面,卡伦伯恩(2023)指出,当代战争中人工智能与机器学习的应用趋势正改变作战格局,在提升战争速度、精度与效率的同时,减少人类参与及战场风险暴露。以色列与加沙的冲突已成为2017-2018年间人工智能实战应用最显著案例。2023年10月敌对行动升级后,据报道以色列国防军大幅增加部署基于人工智能的系统以探测、追踪和攻击潜在目标(格罗斯,2024)。据悉这些人工智能平台包括“薰衣草”、“福音”(Habsora)和“爸爸在哪”等系统,它们通过分析数字通信、卫星图像、电话记录和社交媒体等海量数据集,识别与武装团体关联的个人或地点(伯特兰,2024)。
传统上以色列依赖人工情报(HUMINT)与手动验证执行瞄准任务。而人工智能的引入使该过程急剧加速:相较人工智能问世前每年仅能识别数十个目标,如今单日即可生成数百甚至数千个目标(罗斯,2024)。据报道仅“薰衣草”系统就能精确定位加沙地带约3.7万名疑似与哈马斯或其他武装团体有关联的人员(勒克莱尔,2024)。此类技术进步既证实人工智能在军事作战中的革命性潜力,也暴露出将生死决策权交予算法所引发的伦理与人道主义问题。
人工智能在冲突中的应用不仅限于数据分析。以人工智能驱动的无人机、计算机视觉瞄准系统和自主载具已被用于侦察、隧道导航与精确打击。例如,以军部队使用基于人工智能的光学瞄准系统与无人机拦截器提升作战效率并降低暴露风险(沙维特,2024)。这些发展凸显人工智能在战争决策与实施过程中日益重要的地位。
然而,此类技术进步的后果已在全球引发争议。国际观察员、人权组织与人道机构谴责以色列在加沙冲突中使用人工智能系统,认为其可能违反国际人道法核心原则。人权观察组织(2024)指出,缺乏有效人类控制的人工智能瞄准系统可能违背区分(战斗员与平民)与相称性(攻击不应超过预期军事利益)等国际人道法基本原则。
联合国(2024)警告称,基于概率数据模型而非已验证人工情报的生物武器开发、自主无人机和决策支持算法可能导致更多平民伤亡。同样,国际特赦组织(2024)警示,作战中的人工智能系统具有不透明性,由于算法决策难以审计,问责机制难以实现。
自动化战争还引发深层伦理困境。当算法承担目标探测与分类任务时,道德责任被模糊化。沙基(2023)强调,即使最先进的人工智能系统也缺乏道德判断力,无法理解生命价值或战斗伦理的正当性。这种疏离感迫使我们反思:将生死决策权交由机器是否具有道德正当性。
从战略角度看,人工智能通过消除人为失误、提升作战速度以及减少士兵在危险战斗区域暴露的必要性来增强军事效能(Payne,2023)。然而,正是这些优势带来了新的风险。由于人工智能系统能比人类更快处理信息并作出反应,它们可能加速冲突节奏,甚至超越外交干预或人道主义斡旋的速度。在加沙等动荡环境中,当涉及大规模群体且缺乏核查与调整时间时,这种速度可能导致短期内出现大规模破坏。
人工智能在自动化战争中的应用还存在其他地缘政治担忧,尤其在以色列与加沙案例中。以色列、美国等技术强国拥有研发部署人工智能武器系统的能力,而技术落后国家面临弱势。这种不对称性可能引发新型军备竞赛——不再基于核武器,而是基于算法与数据(Kallenborn,2023)。
因此,尽管人工智能在军事领域应用存在提升效率与精度的机遇,但以色列-加沙冲突中的实践表明,缺乏伦理、法律与监管约束时其风险凸显。战争中算法决策的后果影响深远,不仅涉及军事结果,更关乎平民安全、国际法及未来战争规范的确立。本文旨在审视人工智能在以色列-加沙冲突中的具体应用、其运作机制与人道影响,以及自动化战争对现代冲突的法律与伦理启示。人工智能在战争中日益广泛的应用(尤其体现于以加冲突)是复杂且充满挑战的议题。尽管人工智能技术可提供更高精度、速度与战略优势,但其在军事行动中的使用引发了对问责制、合法性与人道主义的严重质疑。
核心问题在于人工智能系统可能在缺乏充分人类控制的情况下作出或影响致命决策。尽管以色列军方声称保持“人在回路”机制,多项报告指出人类对人工智能瞄准流程的核查作用已被大幅削弱。Gross(2024)报道显示,以军使用人工智能辅助目标识别系统降低了人工质控层级,实质上允许算法主导打击授权。这种转变引发伦理与实践悖论:当人工智能程序出错时,问责对象应是程序员、指挥官还是机器本身?
其次,人工智能算法依赖大数据与概率推理,而非人类判断。此类系统能通过分析通信与行为数据预测潜在威胁,但其预测能力存在不确定性。研究表明,基于偏见或不完整数据训练的人工智能算法通常产生错误结果,在加沙等高密度城区尤为显著(Buchanan and Keating,2023)。这导致误判风险加剧——即平民被错误识别为战斗人员。加沙地带的高人口密度意味着即使较低的错误率也会导致大量平民伤亡。
第三,人工智能作战的速度与规模构成新的人道主义威胁。自动化系统可在数分钟内生成并执行数千个打击目标。虽然提升军事响应能力,这种效率危及“相称性原则”的实施——该原则需人类判断权衡平民伤害与军事收益。在以加冲突中,人工智能系统据称每日可识别数百个目标,被观察者称为“工业化规模战争”(Roth,2024)。这种作战节奏的高效性使遵守国际人道法更为复杂。
该议题另一关键维度是问责制与透明度。人工智能系统运作基于复杂算法,常出现连开发者都无法解释的“黑箱”问题。这种不透明性阻碍冲突后调查与问责机制运行。若人工智能系统参与非法攻击,几乎无法追溯导致事件的具体决策链条。正如Payne(2023)指出,人工智能决策缺乏透明度侵蚀了国际人道与人权法根基的问责理念。更甚者,人工智能在战争中的应用可能诱导民众将暴力归因于算法故障而非国际法违反。当基于人工智能的瞄准被视为数据驱动的客观过程时,存在将人类决策者道德责任转移至机器的风险。这种对恶行的常态化削弱战争道德性,稀释武力使用的道德约束。
最后,人工智能在加沙的应用对民众造成灾难性影响。据报道,人工智能辅助瞄准导致民用基础设施(如医院、学校、居民楼)摧毁与大量平民死亡(Human Rights Watch,2024)。缺乏充分人工裁量权的人工智能系统使用加剧了非战斗人员的困境,并对城市环境下的战争未来提出严峻质疑。
本质上,本文探讨的核心问题是:正如以色列-加沙冲突所呈现,人工智能在战争中的应用对军事伦理、合法性与人类责任规范构成挑战。它营造了生死决策受算法支配甚至决定的境况,而这些算法的运作既不透明又缺乏有效监管。因此,本文试图厘清人工智能在以加冲突中自动化战争的应用程度、其人道主义后果,以及现有法律伦理框架是否足以约束其应用。
人工智能(AI)被定义为能够处理传统上由人类智能完成的工作任务的计算机系统,例如感知、推理、学习和决策(Russell and Norvig, 2021)。在军事领域,人工智能可用于分析复杂数据、识别模式,并就作战行动提供建议甚至独立决策(Payne, 2023)。人工智能在战场上的应用已从数据处理和后勤保障层面,发展到具备完全自主性,即人工智能系统能够识别并交战目标。
自主战争,亦称自动化战争,是指武器系统与人工智能相结合,能够在极少或无需人工控制的情况下执行行动(Kollenborn, 2023)。此类系统包括无人航空器(UAV)、自动化坦克系统、自动化导弹防御系统以及基于人工智能的决策支持系统。Cummings(2023)指出,基于人工智能的战争提高了行动的速度、精度和效率,但同时也带来了伦理、法律和战略威胁。
文献定义了人工智能作战系统的三个广泛自主级别:(1)“人在回路”,即行动执行前必须有人工干预;(2)“人在环上”,即系统在人工监督下独立行动;(3)“人在环外”,即无人干预,系统完全自主行动(Scharre, 2018)。正如Sharkey(2023)所指出的,问题在于自主性越高,人类的道德能动性就越低,且在发生错误或造成平民伤亡时的问责制变得越复杂。
人工智能在军事工业的发展史可追溯至20世纪中期,当时计算模型最初应用于导弹控制和侦察(Singer, 2019)。然而,当前的人工智能应用始于2000年代初期,以无人系统(如美国在阿富汗和伊拉克使用的“捕食者”无人机)为标志。到2020年,人工智能已成为全球发达国家军队在决策、后勤、监视和预测性情报领域的新核心(Boulanin and Verbruggen, 2022)。
以色列尤其已成为人工智能相关战争的早期采用者。以色列国防军(IDF)投入巨资开发和集成人工智能技术到作战部队的各个部门,包括情报与监视部门以及空袭协调部门。在2021年加沙战争中,以色列公开承认在军事行动中使用人工智能,称其为“首场人工智能战争”(Gross, 2022)。这一声明凸显了向研究人员所称的“算法战”的转变——一种通过数据驱动技术使决策过程日益自动化的战争形式(Leclerc, 2024)。
Buchanan和Keating(2023)强调,人工智能使军队能够实时处理大量传感器、卫星和社交媒体数据,并提供有关敌方活动及潜在威胁的主动信息。然而,他们警告说,此类预测能力本质上是概率性的,尤其当基于不完整或有偏见的数据训练时,很可能存在偏差。
以色列-加沙战争本身作为一个案例研究至关重要,因为它展示了人工智能在现代战争中的实际应用。在2023年10月7日哈马斯发动袭击后,以色列实施了大规模报复性打击,使用一套人工智能技术来增强目标定位和作战决策(Gross, 2024)。这些努力显然集中于如“薰衣草”、“福音”(Habsora)和“爸爸在哪?”等系统(Roth, 2024)。
以“薰衣草”系统为例,它采用机器学习分析通信模式、电话元数据和移动数据,以识别属于武装团体成员的个人(Bertrand, 2024)。同样,“福音”可作为打击管理工具,使指挥官能够基于人工智能生成的情报来优先排序和批准空袭。人权观察组织(2024)认为,这些系统极大地增加了每日识别的目标数量(范围从数十到数百个),从而加快了作战节奏。
然而,人工智能在提高效率的同时,也引发了准确性和控制力的问题。据联合国(2024年)报告,在加沙基于人工智能的目标定位导致了民用基础设施(如住宅楼、医院和学校)的大规模破坏。批评者指出,使用算法会减少人类控制,可能违反国际人道法(IHL)所规定的区分原则和相称性原则。正如Payne(2023)所指出的,即使是微小的算法错误,当应用于大规模动能行动时,也可能导致灾难性后果。
基于计算机视觉的目标识别系统和用于执行监视与打击任务的自主无人机也是加沙战争中人工智能作战的一部分。尽管这些系统本应有助于减少士兵面临的危险,但它们实际上扩大了战场范围,使得作战几乎可以不间断进行,缺乏休整与反思(Cummings, 2023)。因此,这场战争既展示了战争自动化的潜力,也揭示了其人道主义危险。
在全球学者和政策制定者中,规制战争中人工智能的呼声日益高涨。有支持者主张完全禁止完全自主武器,将其与化学和生物武器同等对待(Lin, 2020)。另一些人则提出折中方案——通过“有意义的人类控制”原则来保留人类控制(Scharre, 2018)。规制问题不仅涉及法律问题,也涉及哲学问题。根据Payne(2023)的观点,人工智能注定会改变战争伦理,因为它确保决策是基于数据优化而非道德合理性。对此,Sharkey(2023)和Cummings(2023)等研究人员主张在人工智能构建中引入伦理限制,使系统不与人道主义价值观相悖。
以色列-加沙冲突的教训可应用于全球治理。人工智能的广泛使用证明,有必要就冲突地区使用人工智能制定明确、具有约束力的法规。联合国(2024年)指出,除非受到规制,否则人工智能可能助长人道主义危机、破坏问责制并破坏国际和平。
无人机蜂群正逐渐成为集电子对抗、信息攻防与火力打击于一体的综合性新型武器平台,已成为未来战争的重要形态,也催生了反无人机蜂群系统的快速发展。针对无人机技术发展迅速并成为战场重要威胁的问题,本文分析了典型无人机蜂群系统级目标的特点,研究了防空导弹、高炮/弹炮结合、高能激光与高功率微波等反制无人机蜂群的主要手段,并对反制性能进行了对比分析。提出了一种基于无人机搭载微后坐力自动枪的新型空中反无人机拦截系统,研究了其体系架构、作战概念与流程、涉及的关键技术与创新点,为加强反无人机系统能力提供了技术参考。
为在“反介入/区域拒止”环境中成功实施军事行动,美国海军陆战队需将现役“海马斯”高机动火箭炮系统发射装置及弹药升级为多任务平台,从而剥夺对手的安全庇护与机动行动自由。
“反介入/区域拒止”武器系统与战术的兴起构成重大挑战,可能影响美军在全球的行动能力。若美军未能应对“反介入/区域拒止”威胁,将削弱美国在危机期间向全球投送力量的能力,或使部队在军事行动中陷入脆弱境地。克服“反介入/区域拒止”威胁虽具可行性,但需当前缺乏的新聚焦方向。“海马斯”系统虽作为打击陆地目标的地面间瞄火力装备使用,但其弹道计算机与弹药可通过加装主动导引头进行改造,成为能同时应对海上与陆地目标的多任务平台。该系统具备射程、杀伤力、速度、火力、投送能力及生存性优势,可在全天候条件下以密集精确火力攻击对手威胁体系,并在被发现前快速转移至新阵地。若对“海马斯”发射装置的弹道计算机进行升级,并为“陆军战术导弹系统”加装用于打击移动目标的主动导引头,将形成可支持陆海常规威慑能力的多任务平台。最终,通过提升对移动目标的搜索、捕获与摧毁能力,“海马斯”系统及其弹药将获得以精确打击瓦解各类“反介入/区域拒止”威胁的战斗力。
须保持在潜在对手挑战航行自由与进入权的区域实施力量投送的能力。在这些区域,技术先进的对手将运用非对称武器与能力阻遏介入。美军将投资发展先进能力,以确保在“反介入/区域拒止”环境中持续有效行动。应将“海马斯”系统改进为能击败“反介入/区域拒止”威胁的多任务平台,使能够消除那些挑战其力量投送能力或威胁其航行自由的对手力量。
低成本、精密型无人机近期的快速增长,连同相关的技术挑战,是作战战术中的一个显著特征。随着俄罗斯和乌克兰双方愈发依赖这些成本效益高但工艺粗糙的无人机,他们塑造了一个以高效率和低成本为特色的新战场。俄乌双方均发射无人机以攻击对方。无人机或许能以较低效率定位目标,但仍可造成重大破坏。无人机能够摧毁并碳化单价约400万美元的坦克。然而,无人机的单位成本不超过1000美元。目前市场上大多数反无人机设备(包括激光器、高功率微波武器和射频干扰器)的局限性和低效性,在无人机日益普及的背景下已显而易见。本案例研究表明,现有的反无人机技术无法有效压制双方使用的神风敢死队无人机和武器化无人机。由于这些失败,俄乌两军采用了新技术,例如金属网格和尼龙网屏障,这些措施在一定程度上能有效摧毁和拦截无人机。本文通过案例研究,呈现了自2022年2月以来交战双方对无人机的依赖以及所采用的反无人机战术。本研究调查了当前双方可用于减轻武器化无人机战场影响的解决方案,对其进行了评估,并论证了这些方案固有的缺陷如何推动针对武装无人机的新策略和对抗措施的研发。
本文结构如下:第1部分为引言。第2部分论述无人机在俄罗斯-乌克兰冲突中的重要性。第3部分阐述现有反制措施在摧毁无人机方面的局限性。第4部分介绍在此冲突中出现的新型反无人机解决方案。第5部分重点呈现研究结果,阐明新反制措施及创新方法的优势与不足。最后,第6部分为结论。
本报告呈现了北约研究小组的成果,该小组是一项专注于物联网系统数据联合与交换的研究计划。这项工作的推动力来自于对数据驱动型防御日益增长的需求,即跨越国界从军事和民用物联网源获取及时相关信息,这对有效开展行动和决策至关重要。该小组旨在通过探索安全、可互操作的数据共享机制来满足这一需求,确保信息能够送达决策者并被整合到指挥控制系统中。本研究旨在利用尖端技术组合,结合仿真与真实实验,评估并提升分布式物联网环境中的互操作性、可信度和可扩展性。研究探索了物联网资产发现、数据格式和本体论,并高度重视跨平台兼容性与系统联合。为以受控且可重复的方式验证方法,研究团队使用Unity游戏引擎构建了一个合成测试环境。该环境模拟了动态物联网场景,并结合可扩展移动自组网仿真器,包括虚拟资产发现和实时数据共享功能,使研究人员能够在不同操作条件下检验互操作性与联合策略。
研究特别关注系统间的语义互操作性。本研究识别出现有标准中的最佳实践与不足,并通过结合JSON和GeoJSON开发了一种用于物联网资产地理定位和共享传感器测量的自定义格式。报告中记录了使用该格式的经验。研究使用MQTT协议在联合架构内检验了物联网数据共享。指挥控制系统作为MQTT客户端连接到桥接代理,以摄取、分析并响应来自异构源的物联网数据流。这种方法实现了实时态势感知和决策,同时保持了支持动态系统组合和可扩展性的解耦架构。基于MQTT的联合机制确保了跨组织边界的可靠消息传递,从而增强了作战协调与响应能力。
研究的一个重要方面涉及面向人道主义援助与灾难救援应用的众包与群智感知方法。通过利用分布式网络中支持物联网的设备和传感器,众包能够从普通公民和响应人员那里实时收集并共享关键的环境与态势数据(如位置坐标、天气状况和紧急警报)。群智感知通过个人携带或现场部署的传感器设备提高了数据准确性。这种分布式数据收集与分析框架被证明对改善HADR场景中的决策和优化资源分配具有宝贵价值,特别是在基础设施有限地区或大规模紧急事件期间。
研究在拉脱维亚利用5G基础设施进行了实地实验,以评估联合物联网环境下的网络性能与响应能力。这些测试为理解带宽、延迟和设备连接性提供了见解,评估了下一代移动网络对联合物联网部署的影响。为解决数据可信性、完整性和可追溯性问题,项目集成了超级账本Fabric这一许可型区块链平台。该层充当了分布式信任锚,支持对跨联合节点的数据交易和身份管理进行安全审计。研究得出结论:联合物联网系统是可行的,并且可以通过标准化协议、区块链支持的可信机制以及用于仿真验证的合成环境来加强。5G与分布式账本技术的集成为构建具备韧性和互操作性的物联网生态系统提供了一条前景广阔的路径,这对支持现代数据驱动型防御需求至关重要。
实现物联网资源联合的第一步是解决与发现物联网能力相关的挑战。 该小组通过一个名为“MARGOT”的原型解决方案研究了此问题,该方案将在第2章讨论。
为审视现有物联网标准以及现有STANAG标准、架构和最佳实践,以便更好地理解如何将商业和民用物联网技术与能力集成到军事指挥控制中,小组研究了数据模型(在第3章涵盖);小组还针对物联网联合的数据格式提出了自己的方案。
下一步是使用第3章中的数据格式进行实验,并通过概念验证试验来展示将民用物联网与军事指挥控制系统集成的益处和能力。该数据格式承载应用信息。为了在联盟国家间进行通信,仅商定格式是不够的,还必须采用能够传播数据的网络协议。基于IST-150小组“混合战术网络的北约核心服务规划”[6]的建议,我们研究了MQTT协议。第4章涵盖了基于MQTT的联合实验。
物联网适用于许多用例,其中一个用例是人道主义援助与灾难救援。第5章总结了我们的物联网研究,特别是从群智感知和众包的角度。它探讨了基于物联网的解决方案在未来智慧城市环境中支持HADR行动的实际可用性,旨在促进实现协同韧性。
在进行大规模物联网实验时,需要一个物理精度高的平台来模拟物联网传感器的行为。此外,应将合成数据与真实世界传感器的输出相集成,以形成增强的混合模型。第6章讨论了使用Unity游戏引擎支持此类实验。
第7章总结了为指挥控制实施物联网支持的主要发现、经验和建议。该章节的实验基础包括IST-176开发的数据格式(在第3章描述)和MQTT联合实验(见第4章)。
第8章描述了在创建CIS传感器融合演示器过程中所部署的技术、开发流程以及集成与配置步骤,该演示器曾在拉脱维亚的一次5G演习中展示。本章介绍了在不同传感器技术下此集成的结果。
第9章对报告进行总结,并为IST-176工作未充分探索的领域提出了未来工作活动的建议。
附录A重点指出了潜在的改进领域和后续活动,特别是那些源自第8章中5G演习的活动。
附录B.1探讨了将指挥控制系统与物联网集成如何增强军事行动。它通过可部署检查点和联网士兵等场景来说明其益处。
附录B.2提供了IST-176联合工作的早期计划。它讨论了在战术联合环境中指挥控制系统与物联网的集成,回顾了关键的物联网技术和实践,并提出了计划中的实验以展示集成战场资产的可行性。
最后,关于联合方法的说明:IST-176小组探索了三种不同的方法来联合物联网系统并促进信息交换。一种方法利用了信息管理系统桥,该方法在第2章发现架构部分有所描述。第二种方法依赖于联合MQTT代理,在第4章描述。第三种方法依赖于使用星际文件系统和超级账本Fabric,在附录B.3至B.5中探讨。
空中优势,即对空中的控制,是战争艺术的基石。其是取得军事胜利的决定性条件——尽管其本身并非充分条件——因为它能够集中空中力量以实现更广泛的战略目标,并保护其他军种免遭难以承受的损耗水平。通过联合行动中对空中力量的进攻性运用以压制敌方空中力量,是获得空中优势的最佳途径。
西方获取空中优势的能力近年来受到多重挑战,尤其是在一体化防空系统领域。弹道与高超声速技术、无人机、先进电子战技术的普及,以及对超高空领域的新兴利用,这些都是潜在的颠覆性因素,可能绕过或削弱西方传统的空中主宰范式。
雷达隐身与压制敌方防空系统很可能在未来十年内仍是空战战术优势的主导因素。此外,任何能从以平台为中心的思维转向饱和式与分布式战略,并掌握一定数量相关技术的部队结构,都将在战场获得决定性优势。
法国空中力量围绕两大核心任务构建:核威慑与法国本土防空。由于缺乏隐身平台和压制敌方防空能力,加之规模过小的战斗机机队、任务系统的缺失以及弹药储备不足,使其在参与高强度冲突的大型联盟中发挥决定性作用的能力正接近极限。
本研究列出若干建议,其总体目标在于:通过现代化任务系统和增加武器库存,维持现役战斗机机队的短期与中期相关性;从以平台为中心的方法转向分布式传感器与武器网络协同工作,以重获某种形式的规模优势;从中期看,通过确保其精锐能力的成本效益并仅将其用于必要之处,同时构建差异化“近距介入”与“防区外”平台的高低混合搭配,使战斗机航空兵摆脱“奥古斯丁”成本螺旋。
▪ 多数论文与出版物以近乎均等的比例探讨决策制定、网络安全、人工智能战略与治理、伦理及人工智能技术开发
▪ 决策类议题的略微偏重与“人工智能作为决策支持工具”的前提相吻合
▪ 与我们早期预期相悖,伦理、信任及人机交互议题并未过度凸显
▪ 相反,技术研究数量“出人意料”地偏高
军事领域可在一定程度上利用通用生成式人工智能工具
• 问题源于领域特定数据
• 需针对军事术语与语境开发专用嵌入与标记化处理
• 推理能力需要指令调优
多项研究采用微调技术以提升效果
• 虽也采用系统提示,但无法替代微调的必要性
• 微调对于语境理解与指令遵循至关重要
大型模型的计算与内存需求在军事应用中存在限制
• 多数研究依赖公开模型与非机密问题
• 小型模型虽得到充分应用但性能指标不足
该领域发展速度超乎预期
• 除早期思维链实验外未见最先进方法
• 推理模型(LRM)、蒸馏技术及近期“泰坦”架构过于新颖,现有研究尚未深入探讨
日常生活中,人类在与他人互动时通常能够理解自身行为对他人的影响,即便彼此并不共享共同目标。在高风险领域中,这一点尤为关键——一旦无法理解如何对他人的行为作出反应,或无法预判他人的反应,可能会导致伤害甚至死亡。因此,为那些在现实世界中愈发频繁地与人类共处的自主智能体开发类似的能力显得尤为重要。 本论文聚焦于快速发展的自动驾驶车辆领域,因为其中智能体之间的交互广泛存在,同时对可解释性与透明性也有较高要求。鉴于智能体交互本质上具有因果属性,并且解释过程可以利用反事实推断,本研究基于因果推断相关文献展开。 本文除对上述研究领域的文献进行综述外,共包含四个主要章节作为核心贡献: 第一章介绍因果理论,并将其应用于自动驾驶车辆领域;随后在真实自动驾驶数据上对现有因果发现方法进行基准评测,以识别这些技术所面临的挑战。 第二章结合基于行为的“心智理论”(Theory of Mind)与反事实推断,提出 SimCARSv1,其性能优于第一章所评测的方法。 第三章在此基础上进一步研究如何使用结构因果模型(Structural Causal Models)来表示一个由多个交互式自主智能体构成的系统,并解决相关挑战。 **第四章(最终章)**整合前几章的贡献,并引入一种用于估计智能体瞬时奖励参数的方法。最终提出 SimCARSv2,其定量性能与 SimCARSv1 相当,但由于采用基于结构因果模型的架构,其表达能力更强。 这些工作共同代表了将因果推断与自动驾驶车辆这两个前景广阔的研究方向进一步连接起来的重要一步,其最终目标是构建能够安全与人类交互的自主智能体技术。
随着多模态大语言模型(MLLMs)在感知任务中取得显著成功,提升其复杂推理能力已成为关键的研究焦点。现有模型仍然面临诸多挑战,如推理路径不透明以及泛化能力不足。思维链(Chain-of-Thought, CoT)推理已在语言模型中展现出显著成效,可提升推理透明性和输出可解释性;将其扩展至多模态领域有望进一步增强模型的推理能力。本文围绕“多模态思维链”(Multimodal Chain-of-Thought, MCoT)提供了一份系统性综述。首先,从技术演进与任务需求的角度分析了其产生的背景与理论动机。随后,从三个方面介绍主流的 MCoT 方法:思维链范式、后训练阶段以及推理阶段,并分析其内在机制。此外,本文总结了现有的评测基准与评价指标,并讨论了 MCoT 的应用场景。最后,本文分析了当前 MCoT 面临的挑战,并对其未来研究方向进行展望。
在海量数据与强大计算资源的支撑下,多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来在跨模态内容(如文本、图像、视频)的理解与生成方面取得了显著进展(Kim et al., 2021; Li et al., 2021; 2022; Yu et al., 2022; Wang et al., 2023b; Chen et al., 2023; Li et al., 2023a; Wang et al., 2023a; Bai et al., 2025; Zhang et al., 2023a; Liu et al., 2023b; Lu et al., 2024; Dong et al., 2023; Lin et al., 2024; Yin et al., 2023; Caffagni et al., 2024; Zhang et al., 2024b)。它们已被广泛应用于图像描述(Image Captioning)、视觉问答(VQA)(Antol et al., 2015)、视频描述(Video Captioning)(Venugopalan et al., 2015)等任务。尽管在感知与生成方面表现出色,MLLMs 在处理复杂推理任务时仍表现出明显不足(Ghaffari & Krishnaswamy, 2024; Małkinski et al., 2024; Shiri et al., 2024; Imam et al., 2025)。具体而言,当前 MLLMs 主要依赖隐式推理,即基于训练数据中的统计模式进行预测(Bai et al., 2024; Wang et al., 2025f),而缺乏显式、可解释的中间推理步骤。因此,它们在多步逻辑推理、因果推理以及组合式泛化方面受到限制(Lu et al., 2022; Li et al., 2025c)。
为应对大语言模型(LLMs)中的类似问题,研究者提出了思维链(Chain-of-Thought, CoT)推理机制(Wei et al., 2022; Kojima et al., 2022; Wang et al., 2022),旨在增强其逻辑推理能力。思维链的核心思想是将复杂问题分解为一系列显式的中间推理步骤,从而模拟人类逐步构建逻辑链的过程。这一方法在算术、常识和逻辑推理任务中表现出了显著优势,同时提升了模型决策的可解释性与透明性(Huang & Chang, 2022; Chu et al., 2024; Xia et al., 2025b)。在 LLM 领域,诸如 OpenAI o1 和 DeepSeek-R1(Guo et al., 2025)等代表性模型已整合思维链策略,在数学与逻辑推理任务上实现了重要突破,有效推动了 LLM 推理能力的发展。
受这一成功范式的启发,研究者近年来开始探索将思维链推理扩展至 MLLMs,催生了基于思维链的多模态大语言模型(CoT-MLLMs)(Zhang et al., 2023c; Chen et al., 2024c)。这一新兴范式旨在将结构化推理步骤嵌入多模态建模框架,使模型在处理视觉、语言等模态时能够执行更高层次的跨模态逻辑推理。通过这种方式,CoT-MLLMs 能够捕获跨模态的深层语义关联,从而提升整体推理性能和可解释性(Bi et al., 2025; Lin et al., 2025d; Chen et al., 2025a)。与仅处理单一文本模态的 LLMs 不同,增强 MLLMs 的推理能力需要同时处理多模态信息,因此在跨模态构建有效的思维链成为关键挑战。这不仅涉及跨模态信息对齐,还需要构建支持深层跨模态推理的层次化推理结构。
为综合当前研究进展,已有多篇综述(Wang et al., 2025f; Bi et al., 2025; Li et al., 2025c)为研究者提供了整体视角。在前人工作的基础上,本文试图从更具差异化的视角切入,更加侧重深入的理论分析。不同于现有主要聚焦于技术方法总结的研究,本文的核心贡献在于进一步分析与讨论 MCoT 提升模型推理能力的内在机制,从而回答“为什么它有效”这一关键问题。此外,在评测体系、挑战与未来方向等部分,本文提供了更系统的分类与总结。综上所述,本综述系统梳理了 CoT-MLLMs 领域的最新研究进展,涵盖其核心方法、评测基准与指标、典型应用场景,以及面临的挑战与未来发展方向。我们希望本文的洞察与总结能够为这一新兴研究方向提供结构化参考与理论基础,从而促进该领域的持续发展。