《机器学习系统》提供了一个系统化的框架,用于理解与构建机器学习(ML)系统。这本教材弥合了理论基础与工程实践之间的鸿沟,强调从系统视角出发构建高效人工智能解决方案的思维方式。不同于那些主要聚焦于算法和模型架构的资源,本书更强调机器学习系统运行的更广泛背景,包括数据工程、模型优化、硬件感知训练以及推理加速等内容。通过学习,读者将能够系统性地思考机器学习系统的体系结构,并掌握构建灵活、高效且鲁棒的机器学习系统所需的工程原理。
问题: 学生们通常学习如何训练人工智能模型,但很少有人真正理解如何构建能在生产环境中运行的系统。在教授机器学习系统概念时,学生往往只学到各个独立的组成部分,而未能把握整体架构——他们“只见树木,不见森林”。 未来: 随着人工智能变得越来越自主化,瓶颈将不再仅仅是算法本身,而是那些能够构建高效、可扩展且可持续系统的人工智能工程师。 我们的路径: 这一理念源自哈佛大学的 CS249r 课程,在该课程中,学生、教师与业界伙伴共同探索机器学习的系统层面内容。本书的内容由 2023 年秋季学期学生的真实贡献发展而来。最初只是一份课堂笔记,如今已成长为一份我们希望向全球分享的综合性教育资源。 想了解完整故事?请阅读我们的作者说明,了解支撑本项目的灵感与核心价值。
基础篇(第 2、3、4 章) —— 探讨算法与体系结构的基本原理,为理解系统层面的设计决策提供技术背景。这几章回答了“我们在构建什么?”这一问题,为后续“我们如何可靠地构建它?”奠定了基础。 支柱篇 —— 本书按照五大工程学科组织,每个支柱由若干章节组成,从基础内容逐步深入到高级主题。读者既可以线性地阅读全部章节,也可以聚焦于与自己工作最相关的特定支柱。不过,理解我们所讨论的“跨支柱依赖关系”有助于体会到一个支柱中的设计决策如何影响其他部分。 专题篇(第 18、19、20 章) —— 讨论机器学习系统工程在特定领域与新兴挑战中的应用,展示这一框架在多样化应用场景中的灵活性。 全书设有交叉引用系统,帮助读者在不同章节之间导航。当某一章提到另一个章节中已深入讲解的概念时,引用会指引你前往相关内容。这种互联结构反映了“AI 三角框架”的现实:机器学习系统工程需要理解数据、算法与基础设施之间的相互作用,而非将它们孤立研究。 若想了解更多关于本书的学习目标、目标读者、前置知识要求以及如何最大化学习体验的信息,请参阅“关于本书”部分,其中还提供了学习社区与扩展资源的详细说明。 这篇引言为后续内容奠定了概念基础。我们首先理解了人工智能(AI)作为愿景与机器学习(ML)作为方法论之间的关系;随后定义了机器学习系统这一“人工制品”——由数据、算法与基础设施组成的集成计算系统。通过“苦涩教训(The Bitter Lesson)”与人工智能的历史演进,我们认识到为什么系统工程已成为推动人工智能进步的根本,以及基于学习的方法为何主导了这一领域。由此,我们正式将**AI 工程(AI Engineering)**定义为一门独立学科,正如计算机工程(Computer Engineering)曾经的诞生一样——它专注于在各种计算平台上构建可靠、高效、可扩展的机器学习系统。 接下来的旅程将系统地探讨 AI 工程的各个支柱,在提供概念理解的同时,也带来构建生产级机器学习系统的实践技术。我们此前指出的挑战——性能隐性退化、数据漂移、模型复杂性、运维负担以及伦理问题——将在后续章节中反复出现,但这一次,它们将配以基于真实工程经验与最佳实践的具体解决方案。 引言
目标与意义
为什么我们必须掌握支撑具备学习、适应与大规模运行能力的系统之工程原理? 机器学习(Machine Learning, ML)代表了自可编程计算机问世以来计算领域最重要的范式转变——它让系统的行为不再依赖显式指令,而是从数据中“涌现”出来。这一变革要求新的工程基础,因为传统的软件工程原则无法充分应对那些能通过经验进行学习与自我适应的系统。 从气候建模、医学诊断到自主交通,每一个重大的技术挑战都依赖于能够处理海量数据并在不确定性中可靠运行的系统。理解机器学习系统工程(ML Systems Engineering)的原理,决定了我们是否具备解决超越人类认知能力的复杂问题的能力。 这一学科为构建能够跨越不同部署环境(从大型数据中心到资源受限的边缘设备)的系统奠定了基础,也确立了 21 世纪技术进步的工程基石。
💡 学习目标
将机器学习系统定义为由数据、算法与基础设施组成的集成计算系统 * 通过失败模式分析,区分机器学习系统工程与传统软件工程 * 解释 AI 三角框架(AI Triangle Framework),并分析数据、算法与计算基础设施之间的相互依赖关系 * 追溯人工智能范式的历史演进:从符号主义系统到统计学习,再到深度学习 * 评估 Sutton 的“苦涩教训”(The Bitter Lesson)对现代机器学习系统工程优先级的启示 * 比较机器学习系统中的“隐性性能退化(silent performance degradation)”与传统软件的失败模式 * 分析机器学习系统的生命周期阶段,并与传统软件开发流程进行对比 * 对机器学习系统中的现实挑战进行分类:数据、模型、系统与伦理四大维度 * 应用“五支柱工程框架(Five-Pillar Engineering Framework)”分析机器学习系统架构及其内在依赖关系
当今的工程实践正处在一个可与历史上最具变革性的时期相提并论的拐点。 工业革命确立了机械工程以管理物理力的学科体系;数字革命奠定了计算工程以处理算法复杂性的理论基础。而如今,人工智能系统要求一种新的工程范式,用以应对具备学习行为、自主适应能力、并在规模上远超传统软件工程方法的系统。 这一转变重新定义了“工程系统”的本质。 传统的确定性软件架构依赖于显式编程指令,对给定输入产生可预测的输出;而机器学习系统是一种概率性架构,其行为源自对训练数据中统计模式的学习。这一根本差异带来了新的工程挑战,也定义了机器学习系统工程这一新兴学科的使命: * 如何确保学习型系统的可靠性,而非仅依赖程序逻辑? * 如何让系统在处理 PB 级数据并同时服务数十亿用户时仍具可扩展性? * 当运行数据分布偏离训练分布时,如何维持鲁棒性?
这些问题构成了机器学习系统工程作为一门独立学科的理论与实践基础。本章旨在为理解这一领域的历史演化及其与传统软件架构的区别提供概念框架,并通过整合计算机科学、系统工程与统计学习理论的视角,建立系统化研究智能系统的框架。
我们的探讨从人工智能作为研究目标(AI as Vision)与机器学习作为实现方法(ML as Methodology)之间的关系出发,继而定义何谓机器学习系统——一种由数据、算法与基础设施组成的集成计算系统。通过回顾人工智能从符号推理系统到统计学习方法再到深度学习架构的历史演进,我们展示了每一次范式转变如何催生新的工程解决方案。 这一演进揭示了 Sutton 的“苦涩教训”:通用计算方法最终会超越人工设计的知识表示。这意味着,系统工程正逐渐成为推动人工智能进步的核心力量。 在此历史与技术基础上,我们正式将机器学习系统工程定义为一门独立学科。正如**计算机工程(Computer Engineering)**源自电气工程与计算机科学的融合,机器学习系统工程致力于在各种计算平台上构建可靠、高效且可扩展的机器学习系统。这一定义既确立了学科的命名规范,也明确了其实践范围。
在此基础上,本书引入了支撑全书分析的核心理论框架: * AI 三角模型(AI Triangle)——用于理解数据、算法与计算基础设施之间的相互作用; * 机器学习系统生命周期(ML System Lifecycle)——通过对比传统软件开发流程,突出问题定义、数据整理、模型开发、验证、部署与持续维护等阶段的独特性。
这些理论框架将通过典型的应用场景得到验证,展示不同领域中机器学习系统的多样化工程需求——从需在网络边缘低延迟运行的自动驾驶系统,到服务数十亿用户的云端推荐系统,这些案例揭示了部署环境如何塑造系统架构与工程权衡。
最后,本章识别出奠定机器学习系统工程作为一门“必要且复杂学科”的核心挑战: * 隐性性能退化,需要专门的监测与诊断机制; * 数据质量与分布漂移问题,削弱模型有效性; * 高风险场景下的鲁棒性与可解释性需求; * 超越传统分布式系统的基础设施可扩展性压力; * 伦理与社会责任,对系统设计提出新的工程约束。
这些挑战构成了本书的五支柱组织框架(Five-Pillar Organizational Framework)的基础,将机器学习系统工程划分为若干相互关联的子学科,共同支撑构建鲁棒、可扩展、负责任的人工智能系统。
本章为 第一部分:系统基础(Part I: Systems Foundations) 奠定理论基石,介绍了支撑后续分析的基本原理。这些概念框架将在随后的章节中得到深化与应用,最终形成一种可系统化地工程化智能系统的方法论,使人工智能能够在真实生产环境中可靠落地与持续进化。
将**知识图谱(Knowledge Graphs, KG)与大语言模型(Large Language Models, LLMs)**结合,以构建更强大、更可靠、且具可解释性的人工智能系统。 知识图谱通过建模对象、事件、概念及其相互关系,帮助你在数据中识别关键模式,从而做出更优决策。与 LLM 相结合,它们在处理结构化与非结构化企业数据、构建推荐系统、欺诈检测机制或客服对话系统等任务中展现出巨大潜力。
本书提供了系统的方法与工具,帮助读者高效地组织数据、建模知识图谱,并将其融入 LLM 的工作流程之中(反之亦然),实现互补增强。
使用自顶向下、需求驱动的迭代方法建模知识图谱 * 从本体(Ontology)、分类体系(Taxonomy)与结构化数据构建知识图谱 * 利用 LLM 从非结构化数据源中自动构建知识图谱 * 应用机器学习算法补全知识图谱并挖掘其中的洞见 * 在知识图谱上进行推理,并构建基于 KG 的 RAG 系统以增强 LLM
结合知识图谱与 LLM 可显著: * **减少幻觉(Hallucination)**现象 * 提升输出的可解释性
增强推理与知识一致性
知识图谱通过自然地编码数据间的关系,使得 AI 系统即便在领域知识有限的情境下,也能保持更高的可靠性与准确性。
展示如何在基于 LLM 的应用与 RAG 管线中引入来自结构化与非结构化源的知识图谱
提供涵盖医疗、金融风控等领域的真实案例研究
深入讨论知识表示与推理策略的工程实践
Part 1
知识图谱与 LLM:强强联合 1. 智能系统的混合范式
Part 2
从本体创建首个知识图谱
从简单网络到多源数据融合 Part 3
从非结构化数据中抽取领域知识
使用 LLM 构建知识图谱
实体消歧(Named Entity Disambiguation)
基于开放式 LLM 与领域本体的实体消歧 Part 4
知识图谱上的机器学习入门
图特征工程:手动与半自动方法
图表示学习与图神经网络(GNN)
节点分类与链接预测 Part 5
基于知识图谱的 RAG 系统
使用自然语言向知识图谱提问
利用 LangGraph 构建问答智能体
适合机器学习工程师、AI 工程师、数据科学家与数据工程师。 书中示例均使用 Python 实现。
Dr. Alessandro Negro:GraphAware 首席科学家,《Graph-Powered Machine Learning》作者,GraphAware Hume 平台联合创始人。 * Dr. Vlastimil Kus:GraphAware 首席数据科学家,专长于 NLP 与图机器学习。 * Dr. Giuseppe Futia:GraphAware 高级数据科学家、意大利都灵理工大学博士,研究方向为图表示学习与知识图谱自动构建。 * Fabio Montagna:GraphAware 首席机器学习工程师,专注于将科研成果快速转化为工业应用。
本专著聚焦于塑造扩散模型(diffusion models)发展的核心原理,追溯其起源,并展示不同形式如何从共同的数学思想中演化而来。 扩散建模的起点是定义一个正向扰动过程(forward corruption process),该过程会逐步将数据转化为噪声。通过定义一系列连续的中间分布,这一正向过程将复杂的数据分布与简单的噪声分布相连接。扩散模型的核心目标是构建一个反向生成过程(reverse process),使其能够沿与正向扰动相反的方向运行,从噪声逐步还原出数据,同时复现与正向过程一致的中间分布。 我们从三种互补的视角对这一思想进行形式化阐述: * 变分视角(Variational view):受变分自编码器(VAE)的启发,将扩散过程视为逐步去噪的学习过程。模型通过一系列小的去噪目标(denoising objectives)学习如何一步步将噪声还原为数据。 * 基于得分的视角(Score-based view):源于能量模型(energy-based modeling),学习数据分布随时间演化的梯度,即“得分函数(score function)”,用于指示样本应朝哪些方向调整以进入更高概率区域。 * 基于流的视角(Flow-based view):与归一化流(normalizing flows)相关,将生成视为沿着由学习到的速度场(velocity field)控制的平滑路径,从噪声平滑地迁移至数据。
这三种视角共享一个共同的数学骨架:一个随时间变化的学习速度场(time-dependent velocity field),其流动将简单的先验分布传输到目标数据分布。在此基础上,采样过程可以被视为求解一个微分方程,使噪声沿着连续的生成轨迹演化为数据。 在此理论框架之上,专著进一步讨论了: * 可控生成的引导机制(guidance for controllable generation); * 高效采样的高级数值求解方法(advanced numerical solvers for efficient sampling); * 受扩散启发的流映射模型(diffusion-motivated flow-map models),这些模型能够直接学习生成轨迹上任意时刻之间的映射。
本书面向具有基础深度学习背景的读者,旨在提供一个清晰、概念化且数学上扎实的扩散模型理解框架。它系统阐明了扩散模型的理论基础,解释了不同公式化形式背后的思想逻辑,并为进一步研究提供稳固的理论支点。该专著既可作为研究者的系统参考资料,也可作为初学者进入这一快速发展的研究领域的易懂入门读物。
可解释性已成为深度学习广泛应用的关键挑战,尤其是在那些人工智能决策可能对人类生活产生深远影响的领域(例如医疗、金融)中。本教程将概述两种主要的可解释性方法,并讨论它们各自的优势与局限性:
事后可解释性:解释现有模型的方法。 设计时可解释性:构建本身具有可解释性的模型的方法。
**摘要——**具身智能(Embodied AI)要求智能体具备感知、行动与预测能力,即能够预见自身行为将如何重塑未来的世界状态。**世界模型(World Models)**作为内部模拟器,用于捕捉环境动态,从而支持前向推演与反事实推演,以辅助感知、预测和决策。本综述针对具身智能中的世界模型提出了一个统一框架。具体而言,我们形式化了问题设定与学习目标,并提出了一个三轴分类体系,包括:(1)功能性维度:决策耦合型(Decision-Coupled)与通用型(General-Purpose);(2)时间建模维度:序列化的模拟与推理(Sequential Simulation and Inference)与全局差分预测(Global Difference Prediction);(3)空间表征维度:全局潜向量(Global Latent Vector)、特征标记序列(Token Feature Sequence)、空间潜在网格(Spatial Latent Grid)以及分解渲染表征(Decomposed Rendering Representation)。 我们系统化地整理了跨机器人、自主驾驶与通用视频场景的数据资源与评测指标,涵盖了像素级预测质量、状态级理解以及任务性能等方面。此外,我们对当前最先进的模型进行了定量比较,并总结出若干关键的开放挑战,包括:缺乏统一的数据集与评测基准;需要评估物理一致性而非仅关注像素保真度的指标;模型性能与实时控制所需计算效率之间的权衡;以及在长时序预测中实现时间一致性并减缓误差累积的核心建模难题。 最后,我们在以下链接维护了一个精心整理的参考文献库: https://github.com/Li-Zn-H/AwesomeWorldModels。 **关键词——**世界模型;具身智能;时间建模;空间表征。 1 引言
具身智能(Embodied AI)的目标是使智能体具备在复杂的多模态环境中进行感知(perceive)、行动(act)以及预测自身行为将如何改变未来世界状态(anticipate how actions reshape future world states)的能力 [1], [2]。支撑这一能力的核心是世界模型(world model)——一种内部模拟器(internal simulator),能够捕捉环境动态,从而通过前向推演(forward rollouts)与反事实推演(counterfactual rollouts)来支持感知、预测与决策 [3], [4]。 本综述聚焦于能够为具身智能体提供可操作性预测(actionable predictions)的世界模型,并将其与静态场景描述器(static scene descriptors)或不具备可控动态的纯生成视觉模型(purely generative visual models)区分开来。 认知科学研究表明,人类通过整合多感官输入来构建内部世界模型(internal models of the world)。这些模型不仅用于预测与模拟未来事件,还会反过来塑造感知并指导行动 [5]–[7]。受到这一观点的启发,早期人工智能领域的世界模型研究起源于基于模型的强化学习(model-based reinforcement learning, RL),其中通过隐空间状态转移模型(latent state-transition models)提升采样效率与规划性能 [8]。Ha 与 Schmidhuber 的开创性工作 [9] 首次明确提出“世界模型(World Model)”这一概念,并启发了 Dreamer 系列工作 [10]–[12],展示了通过学习环境动态来驱动基于想象的策略优化(imagination-based policy optimization)的潜力。 近期,**大规模生成建模(large-scale generative modeling)与多模态学习(multimodal learning)的进展进一步拓展了世界模型的研究边界——从最初面向策略学习的模型演化为能够进行高保真未来预测的通用环境模拟器(general-purpose environment simulators),代表性模型包括 Sora [13] 与 V-JEPA 2 [14]。这一演化过程带来了功能角色、时间建模策略与空间表征方式的多样化,同时也导致了不同子领域在术语与分类体系上的不一致。 要真实捕捉环境动态,世界模型必须同时解决状态的时间演化(temporal evolution of states)与场景的空间编码(spatial encoding of scenes)问题 [3]。在长时序(long-horizon)推演中,误差积累会显著影响模型连贯性(coherence),使其成为视频预测与策略想象中的核心挑战 [15], [16]。同样,过于粗糙或二维导向的布局(2D-centric layouts)难以捕捉遮挡、物体持久性(object permanence)与几何感知规划(geometry-aware planning)所需的几何细节。相比之下,体积或三维占据表征(volumetric or 3D occupancy representations)——如神经场(neural fields)[17] 和结构化体素网格(structured voxel grids)[18]——提供了显式的几何结构,更有利于预测与控制。 综上所述,时间建模(temporal modeling)与空间表征(spatial representation)构成了世界模型的两大核心设计维度,它们从根本上决定了模型的预测时域(predictive horizon)、物理一致性(physical fidelity)以及具身智能体的下游性能。 近年来,已有若干综述试图梳理世界模型的快速发展文献,整体上可分为两类研究路径。 第一类是功能导向(function-oriented)视角。例如,Ding 等人 [4] 基于理解与预测两项核心功能对相关工作进行了分类,而 Zhu 等人 [19] 则从世界模型的核心能力构建了框架。 第二类是应用驱动(application-driven)视角,聚焦于特定领域,如自动驾驶。Guan 等人 [20] 与 Feng 等人 [21] 分别综述了面向自动驾驶的世界模型技术。 为解决具身智能场景下缺乏统一分类体系的问题,本文提出了一个以功能性(functionality)、时间建模(temporal modeling)与空间表征(spatial representation)三大核心轴为中心的框架。在功能维度上,我们区分了决策耦合型(decision-coupled)与通用型(general-purpose)模型;在时间维度上,区分了序列化模拟与推理(Sequential Simulation and Inference)与全局差分预测(Global Difference Prediction);在空间维度上,涵盖了从潜特征表征(latent features)到显式几何结构(explicit geometry)与神经场(neural fields)**的多种表征形式。 该框架为现有方法提供了统一的组织结构,并整合了标准化的数据集与评测指标,从而便于量化比较,并为后续研究提供了全景化的知识图谱与可操作的研究路线。
图 1 展示了本文的整体结构与分类体系。第 2 节概述世界模型的核心概念与理论基础;第 3 节介绍我们提出的三轴分类体系,并将代表性方法映射到该框架中;第 4 节梳理训练与评估中使用的数据集和指标;第 5 节给出当前最先进模型的定量比较;第 6 节讨论开放挑战与潜在研究方向;第 7 节对全文进行总结。
大型语言模型(LLM)赋能的知识图谱构建:综述
知识图谱(Knowledge Graph, KG)长期以来一直作为结构化知识表示与推理的核心基础设施。随着大型语言模型(Large Language Models, LLMs)的兴起,知识图谱的构建进入了一个全新的范式——从基于规则与统计的方法论管线,转向以语言驱动和生成式框架为核心的模式。本文综述了LLM赋能的知识图谱构建的最新进展,系统分析了LLM如何重塑传统的三层构建流程:本体工程、知识抽取与知识融合。 我们首先回顾了传统知识图谱的方法体系,以奠定概念基础;随后从两个互补的视角系统梳理了新兴的LLM驱动方法:基于模式(schema-based)范式,强调结构化、规范化与一致性;以及无模式(schema-free)范式,突出灵活性、适应性与开放式发现。在每个阶段中,我们汇总了具有代表性的框架,剖析其技术机制,并指出存在的局限性。 最后,本文总结了关键趋势与未来研究方向,包括:面向LLM的基于知识图谱的推理、面向智能体系统的动态知识记忆,以及多模态知识图谱构建。通过这项系统性综述,我们旨在阐明LLM与知识图谱之间不断演化的交互关系,推动符号知识工程与神经语义理解的融合,迈向自适应、可解释且智能的知识系统发展。
知识图谱(Knowledge Graph, KG)长期以来一直是结构化知识表示、集成与推理的基石。它为语义搜索、问答系统以及科学发现等广泛的智能应用提供了统一的语义基础。传统的知识图谱构建流程通常由三个主要组成部分构成:本体工程(ontology engineering)、知识抽取(knowledge extraction)和知识融合(knowledge fusion)。尽管这些方法在支持大规模知识组织方面取得了显著成功,但传统范式(如 Zhong 等,2023;Zhao 等,2024)仍然面临三大长期性挑战: (1) 可扩展性与数据稀疏性问题:基于规则或监督学习的系统往往难以跨领域泛化; (2) 专家依赖与刚性问题:模式与本体的设计严重依赖人工干预,缺乏自适应性; (3) 流程割裂与误差累积问题:构建各阶段的割裂处理容易导致误差逐步传递。 这些限制阻碍了自演化(self-evolving)、大规模与动态知识图谱的发展。 大型语言模型(Large Language Models, LLMs)的出现,为突破上述瓶颈带来了范式级变革。通过大规模预训练与涌现的泛化能力,LLMs 引入了三种关键机制: (1) 生成式知识建模(Generative Knowledge Modeling) —— 直接从非结构化文本中合成结构化表示; (2) 语义统一(Semantic Unification) —— 通过自然语言对齐整合异构知识源; (3) 指令驱动的协同(Instruction-driven Orchestration) —— 以提示(prompt)为基础协调复杂的知识图谱构建流程。 因此,LLMs 正在从传统的文本处理工具演化为能够无缝连接自然语言与结构化知识的认知引擎(cognitive engines)(如 Zhu 等,2024b;Zhang & Soh,2024)。这一演化标志着知识图谱构建从规则驱动、流程化体系向LLM驱动的统一与自适应框架的根本转变。在这一新范式下,知识获取、组织与推理被视为在生成式与自精化(self-refining)生态系统中相互依存的过程(Pan 等,2024)。 鉴于该领域的迅速发展,本文对LLM驱动的知识图谱构建进行了全面综述。我们系统回顾了涵盖本体工程、知识抽取与知识融合的最新研究成果,分析了新兴方法论范式,并总结了LLM与知识表示交叉领域的开放挑战与未来方向。 本文结构如下: * 第2节 介绍传统知识图谱构建的基础,包括LLM出现前的本体工程、知识抽取与知识融合技术; * 第3节 回顾LLM增强的本体构建方法,涵盖自上而下范式(LLM作为本体助手)与自下而上范式(KG服务于LLM); * 第4节 介绍LLM驱动的知识抽取,对比基于模式与无模式的方法论; * 第5节 讨论LLM赋能的知识融合,重点分析模式层、实例层及混合型框架; * 第6节 探讨未来研究方向,包括基于知识图谱的推理、智能体系统中的动态知识记忆,以及多模态知识图谱构建。
人工智能(AI)近来在政策与学术讨论中既作为战略资产,也作为现代战争中复杂的伦理困境出现。它可能重塑军事能力,并重新定义必要的人类参与程度。AI对于自主武器系统(AWS)尤为关键,因为其日益增长的复杂性和能力要求重新审视机器自主性与人类决策之间的平衡。这些创新和新兴军事能力的核心,在于人类控制的程度或缺失所引发的不确定性。
为寻求这种平衡,“有意义的人类控制”(MHC)概念应需而生,它提供了一个框架来重新思考和界定人类在关键且时间敏感的决策中的参与。随着各国探索军事AI的潜力和实际应用,MHC已成为规范自主武器系统的核心焦点。然而,MHC的理念因其模糊性、有限的实际应用以及缺乏全球共识而存在显著挑战。尽管如此,它所代表的核心问题——人类决策在部署自主武器系统中的作用——对于AI和自主系统在军事行动中安全且合法的整合至关重要,无论使用何种术语。尽管学术界在MHC的概念化方面付出了巨大努力,但仍有大量工作有待完成。
推进人类控制在自主系统中的实际应用,需要仔细审视决策者及其在武器系统整个生命周期中所做的决策。许多参与者参与到武器系统的概念化、设计、开发、采购、部署和处置过程中,他们对于自主武器系统关键功能的重要性各不相同。识别和分析这些关键参与者并理解他们的角色,对于绘制人类参与、能力及潜在控制的网络至关重要。
本文是朝此方向迈出的一步。它是一个三部分系列文章的第三篇,该系列审视了在AI赋能的自主武器系统生命周期内人类控制的实际运作及其影响。
该系列文章审视自主武器系统(AWS)的生命周期,以理解关键决策者是谁,以及做出了哪些决策,从而评估人类控制如何能被整合到自主武器系统中。系列中的每篇文章探讨一个特定的生命周期阶段。第一篇文章探讨了在自主武器系统设计与开发阶段所做的决策,以审视软件开发者和工程师如何利用人类判断来建立机器学习模型内的参数。第二篇文章讨论了指挥官的角色和功能,以及通过确立自主武器系统适当使用的参数来嵌入人类判断的途径。这第三篇文章探讨了操作员作为人类控制关键代理人的角色和功能,包括监督自主武器系统所固有的认知挑战,以及操作员在战斗环境中运用人类判断操作自主武器系统的机会。
操作员始终处于人类控制讨论的中心。全球政策论坛,例如联合国致命自主武器系统政府专家组,已广泛考量了在国家和国际层面概念化和实施自主武器系统人类控制框架所面临的挑战。操作员在这些辩论中扮演关键角色,因为从历史上看,他们是人类控制存在于常规武器中的执行者。因此,历史上沿OODA循环(观察、调整、决策、行动)存在的操作员,直观地代表了在AI背景下有能力维持“控制”的人类。然而,正如本文详细阐述的,这种人类控制的愿景存在固有风险。清晰认识操作员在自主武器系统中的局限性和现实功能至关重要。
对操作员角色进行重新审视的部分原因在于本文所考察的自主武器类型。本系列考察的是AI赋能的自主武器,特别是那些具备“边缘学习”能力的系统,即系统能在操作环境中学习并优化。AI赋能的自主武器在质上的不同在于其“让武器决策”的能力。本系列文章仅关注具备边缘学习能力、且在观察-调整-决策-行动(OODA)循环的任何阶段均无需人工干预的武器系统。此类武器系统尚未(但)存在。然而,这些系统代表了一种人类控制程度最低的场景,并且是MHC支持者试图预防的场景。确实,部署这些假设性的武器系统存在重大关切,尤其是在边缘操作。然而,有必要承认,机器学习和边缘能力正在快速发展,这些武器系统可能不会永远是虚构的。在仍有机会吸纳基于研究的见解并制定全面且负责任的自主武器系统政策和实践之时,针对这种形式的自主武器系统提出关于人类判断与控制的作用和能力的复杂问题,是至关重要的。
本文后续安排如下。首先,详细阐述围绕人类控制与自主武器系统的关切、挑战和机遇的轮廓与辩论。其次,论证生命周期视角展示了关键决策者将人类判断嵌入自主武器系统的过程。通过更深入地探究参与未来自主武器系统开发与部署的“众多人类参与者”,研究人员可以理解更大的人类控制网络,该网络能为实施人类控制以及最终实现安全、合法和负责任的自主武器系统提供更佳的政策和实践信息。第三,详细说明操作员控制自主武器系统所特有的固有挑战,包括决策速度过快超出人类认知能力、决策过慢无法吸引人类认知参与,以及其他可能抑制操作员最佳表现或损害人类控制的认知偏差。第四,提出一个操作员功能框架,以提供对已部署自主武器系统中运用的操作员判断的现实看法。该框架包括操作员在作战环境中引导、观察和终止自主武器系统的角色。这些角色不同于先前描述的指挥官和软件开发者的角色,因而是操作员特有的功能。第五,本文进一步阐述了认识到人类控制网络的重要性对于未来政策制定者的关键性,因为AI能力持续创新,并且拥有自主武器系统的未来正变得越来越可能。
新技术的出现及军事能力——尤其是在人工智能(AI)和自主武器系统(AWS)方面——的核心挑战和关切点在于人类控制,或者说控制的缺失。AI在现代战争中既作为战略资产,也作为重大的伦理挑战,持续出现在政策和学术讨论中,它有可能重塑军事能力的边界,并重新审视人类参与的程度和要求。这一点在AWS的语境中最为关键,因为其日益增长的复杂性迫切需要深入审视机器自主性与人类决策者的角色及要求之间的平衡。
为追求这一平衡,"有意义的人类控制"(MHC)概念应运而生。这是一个源于必要性而产生的概念,并提供了一个平台来重新审视和界定人类在关键且时间敏感的决策中的参与范围。随着各国努力应对新兴军事AI的潜力和实际问题,MHC已成为AWS监管的一个决定性特征。然而,MHC作为一个概念和术语,因其模糊性、缺乏实践以及全球共识的缺失而存在重大障碍。尽管如此,MHC所代表的核心关切——即人类决策在AWS部署中的作用——对于负责任且合法地将AI和自主性整合到军事系统和流程中至关重要,无论使用什么术语。尽管学术界努力推动议程朝着MHC的概念化方向发展,其中许多努力是富有成效且必要的,但仍有大量工作有待完成。
为了在自主系统中切实推进人类控制的实际实现,需要仔细审慎地审视决策者是谁,以及他们在武器系统整个生命周期中做出哪些决策。从概念化、设计、开发、采购、部署到处置,有许多人参与到一个武器系统的过程中,其中对于与AWS性能最相关的关键功能而言,某些角色的决策比其他角色更为重要。然而,识别和审视这些关键参与者并理解他们的角色,对于绘制人类参与、人类能力以及(潜在的)人类控制的网络是必要的。
本文是三部分系列文章的第一篇,该系列解构武器系统生命周期的各个阶段,以特别探讨在三个阶段做出的关键决策:设计与开发、作战部署和战术接战。审视每个阶段有助于更好地理解谁在做出这些决策、这些决策是什么、这些决策在何时做出,以及这些决策对武器系统性能的总体影响。这对AWS来说尤为关键,因为正如本系列将展示的,人类的决策和判断以多种方式与自主系统互动,并被嵌入到AWS中。任何对人类控制及其后续法律和政策影响的严谨探讨,都必须首先考虑哪些决策塑造和定义了系统的开发与部署、这些决策如何直接关系到系统性能,以及这些决策如何像拼图一样,共同构成一幅关于人类在这种尖端能力中所扮演角色和能力的更大叙事。本系列文章正是朝着这个目标迈出的一步。
生命周期框架通常包括六个阶段:设计/开发、测试与评估、生产与采购、作战部署、处置以及使用后审查。人类控制可能在任何一个阶段丧失或被利用,这就是为什么更深入地考虑这个时间线至关重要。
虽然这个有限的系列只考察三个阶段,但这当然不是详尽无遗的。要全面理解生命周期每个阶段的人类参与和控制,还需要做更多的工作。本系列从作战和战术两个角度考察设计与开发以及作战部署阶段。然而,本文专门讨论第一阶段:设计与开发。
在评估人类控制时,仅关注机器学习系统,因为这些系统代表了大多数专家认为的人类控制程度最低的场景。以此方式,机器学习自主武器将代表实现MHC最具挑战性的案例。因此,这第一篇文章探讨设计/开发阶段,特别是多个机器学习过程,以及机器学习设计者、开发人员和工程师在创建这些模型时所做的决策。这展示了人类决策和参与在开发机器学习模型中的范围和潜力,从而说明人类判断如何能够体现并嵌入到机器学习AWS中。
本系列的第二篇文章将考察指挥官在作战规划过程中的决策,以此作为人类控制的一种体现。这包括对作战背景、进攻与防御规划以及法律问题的考量。从根本上说,它探讨了指挥官在规划阶段的决策,并详细说明了这些决策如何构成武器系统生命周期中的有意义的人类控制或嵌入式人类判断。
第三篇文章考察最常与MHC关联的阶段:负责使用AWS的操作员的决策。这是一个需要考虑的关键阶段,因为通常认为MHC存在于此处,或者说在AWS部署中MHC理应存在于此处。该文章探讨了那些现存的论点,并最终论证作战使用阶段本身不足以体现MHC或适当的人类判断,因为其范围极其有限;相反,它仅仅是更大的人类控制网络中的一部分。
本系列旨在证明,在机器学习自主武器系统的背景下,人类判断是由许多利益相关者在生命周期的许多阶段嵌入的。只有从整体上看,才能充分理解这个作为生命周期天然组成部分的人类判断网络。这并不是说AWS的开发或部署中没有剩余的法律关切或伦理挑战了——远非如此。相反,目标是敦促学术研究人员和政策制定者拓宽人类控制的范围,朝着一个整体或全面的图景发展,即理解自主系统是如何开发的、机器学习模型的能力是什么,以及整合这种新能力可能克服或新引入哪些法律和作战挑战。其他学者也曾主张拓宽关于新兴技术和人类角色的范围,但通常是为了将MHC问题扩展到武器语境之外,并探讨人类控制对于非武器化的军事AI系统(如用于目标选定周期的决策支持系统)同样复杂的情况。然而,更深入地探讨武器讨论,追踪人类控制在特定生命周期阶段如何被具体实现,以说明不同阶段的不同行动者如何为一个更大的人类控制网络做出贡献。简而言之,需要先拉近镜头审视决策者,然后才能拉远镜头以全面理解人类控制网络,并恰当地利用或规范它。
由于人类控制的理念仍然是学术界和政策界关于AWS讨论和辩论的核心,并且各国正试图实施人类控制的框架(例如澳大利亚和美国),因此认识到哪些因素和哪些人与实际且全面地理解人类控制相关,是至关重要的。
值得注意的是,在围绕AWS和人类控制的持续讨论和辩论中,存在许多各学科和对话之间相互错失交集的机会。这一领域充满了对AI或机器学习能力的误解,使用着不同的AWS定义,或者缺乏必要的技术知识来理解这种新兴技术及其军事应用所涉及的风险。本系列也旨在为关于这一关键问题的法律、作战和技术讨论与分析提供一个公平的竞争环境。跨学科的参与和知识交流对于更广泛地培育任何未来自主武器系统或军事AI的负责任和合法的整合至关重要。技术、法律和作战上的必要性在军事AI和自主武器的发展中紧密相连,这些文章并没有忽视这种复杂性,而是直接应对它。
作为三部分系列的第一篇,本文后续结构如下。首先,有必要理解有意义的人类控制(MHC)这一概念,其在政治领域的演变,以及制定或实施此类概念所面临的实际挑战。这包括简要描述各国围绕人类对AWS控制的立场,以及从技术、政策和军事角度选择合适术语所面临的挑战。
其次,借鉴那些应对人类在自主性之中及之上控制挑战的学科,本文探讨一个"嵌入式人类判断"的框架,以捕捉各学科在应对自主性中人类控制挑战时的共同点。
第三,本文讨论了国际法在MHC领域的相关性,并考量是否存在关于最低限度人类参与标准的法律要求。
第四,本文详细介绍了现代机器学习过程——它们是什么以及能做什么——以评估人类在当代机器学习模型设计和开发中的作用。
第五,本文考察了人类判断如何通过三个早期的设计和开发过程被嵌入到AWS中。这三个过程包括围绕训练数据、创建软件架构和设计系统界面的过程。目的并非详尽无遗地列出人类判断可能被嵌入AWS的所有途径,而是通过一些非技术受众可能不熟悉的例子,来审视这些决策以及做出这些决策的关键参与者。这有助于就该人类控制问题进行更细致、更知情的研究和参与。
美国防部(DoD)编制本指南旨在支持自主系统的试验与鉴定(T&E)。本指南阐述了在国防部系统中移除或极大减少人工操作员参与、并赋予未来自主系统在作战环境中独立行动所带来的全新挑战。这些挑战要求采用迭代方法评估自主系统日益增长的能力,以确保其在复杂作战环境中具备可信的任务能力。因此,本指南旨在:
• 识别并阐释国防部关于自主系统试验与鉴定的政策。
• 识别并阐释自主性试验与鉴定的总体挑战和具体挑战。
• 分享关于自主性试验与鉴定全周期的方法和最佳实践指南。
• 提供来自可信联邦来源的、关于自主性试验与鉴定工具和资源的信息。
本指南详述的信息主要关注政府独立试验团队在规划与执行自主系统试验与鉴定时面临的问题,同时也为支持或依赖试验与鉴定流程的利益相关方提供见解。认识到自主性是一项新兴技术,本指南旨在就当前问题提供可获取的最佳信息,并将随着技术和方法的发展而更新。
测试自主系统的一个关键挑战在于缺乏人工操作员进行持续控制,这要求自主系统在多样化的环境、任务条件和场景中执行动态的“观察-调整-决策-行动”(OODA)循环操作。这一总体挑战带来了许多复杂的困难,例如:
• 为自主系统行为设定的需求与作战概念往往过于宽泛或狭窄、不完整、不一致、主观、不可测试或定义不清。
• 对于能独立采取物理行动且不受人工控制的自主系统,其安全性将安全责任与风险从用户转移到了设计者、开发者和测试者身上。
• 数据问题层出不穷,例如真实性、可用性、可分析性、安全性和充分性。
• 黑盒软件或人工智能组件导致在未经测试的场景中性能未知。
• 适用于国防部的人机自主编组模型与衡量标准尚不全面或成熟。
为应对这些以及许多其他新兴挑战,本指南基于自主性试验与鉴定全周期所获得的经验教训,收录了以下方法和最佳实践:
• 基于任务与系统分解及迭代测试的端到端自主性试验与鉴定流程,用于证据汇集和自主系统可信度的持续确认。
• 采办与试验策略实践,例如开放系统架构;保证案例论证;广泛使用建模与仿真;以及实况、虚拟和构造性测试。
• 试验规划与执行方法,包括科学试验与分析技术、运行时保证、持续测试、对抗性测试和认知插装。
• 支持模型验证、风险量化和基于任务认证的数据分析。
本指南利用敏捷和迭代测试中的新兴最佳实践,将成功经验延伸至整个试验与鉴定周期。通过应用这些最佳实践来实现高效、有效和稳健的研制试验与鉴定,国防部的自主系统将为成功的作战试验与鉴定及作战运用做好准备。
全谱战争已演变为一个新兴概念,它介于混合战争、不对称战争和非常规战争之间的理论空间,尽管其在认识论领域尚未完全定型。该概念已出现在澳大利亚、美国、俄罗斯和中国的多份军事战略文件中,并逐步融入"全域主导""全谱工具"及"全谱防御"的概念体系。其核心内涵聚焦于突发性、不可预见的态势演变,以及"思考不可思考之事"和"未知的未知"领域中的创新要素。正开展跨学科研究,结合以色列、乌克兰、俄罗斯、美国当前实战案例,构建可操作的定义体系。研究方法包含认识论辨析,提炼全谱战争的独特性与附加值,并通过百科全书式的学术探讨厘清概念本质。
关键词:未知的未知;思考不可思考之事;全谱战争;突发性;不可预见演变
当前国际关系、安全研究和世界秩序的高度不确定性,亟需更完善的分析工具与创新理论框架,以界定和阐释(甚至预判)战略突发状况。前瞻性研究已提出若干要素,我们着重强调"未知的未知"和"思考不可思考之事"的理论价值,同时引入"黑天鹅事件"及相关概念参与学术对话。基于实战演进,本文提出全谱战争概念,其核心在于整合所有军事与非军事手段,甚至包含传统冲突中罕见的腐败、认知操纵、和平时期颠覆等非常规工具。
通过辨析预测学局限与前瞻研究模型,可从认识论层面厘清全谱战争与混合战争、非常规战争、不对称战争、非动能战争等概念的界限。该概念在不同文献中存在释义差异,需系统梳理。本文旨在明确全谱战争的核心特征,构建可用于安全研究的理论框架。
研究方法包含认识论辩论、特征提取与概念价值评估,并通过全景式学术探讨深化理解。聚焦突发性、未知的未知和思考不可思考之事三大维度,可精准界定全谱战争的适用场域,论证各类工具创造战略突袭(包括单次打击)的可行性。全谱攻防体系要求所有工具的协同整合,这也构成概念的重要内涵,体现了21世纪冲突演进的特征。
从概念定义(及其演变)、关联概念和官方文献三个层面构建理论体系,进而解构核心特征并提出操作定义,最后辨析与相似概念的关联性及本体论差异。全谱战争与全谱防御存在直接关联,后者要求抵御前者所有要素的冲击;而全域主导权则体现为对全谱战争各组成部分的防护、预防、反应与清除能力。
全谱战争不仅是多种应对工具的简单叠加,更强调建立统一的指挥控制体系、协同规划机制及预警感应网络,以应对跨频谱同步协调的复合攻击。其本质在于实现对抗手段的集成化协调,而非针对不同攻击频谱采取分散应对。
现有理论对全谱战争有多重解读:有观点认为其涵盖混合行为体可调用的国家军事/非军事力量与秘密行动谱系;美军将其"全域主导"定义为通过尖端战争机器实现对陆、海、空、天物理域的控制;该术语更深层指向人类安全的球形维度——安全即构建抵御外患的防护穹顶,而军事防护的终极形态正是通过间谍卫星和轨道武器掌控外太空。
对美军而言,全域主导是控制陆、海、空、天、网乃至心理空间的军事野心,其终极目标是在从常规战争到非常规战争的整个频谱保持绝对优势。该术语在克林顿时期指代从和平到常规战争的冲突阶段,要求具备全谱常规作战能力。拉姆斯菲尔德时期强调发展应对多元威胁的军事能力组合,规划覆盖所有潜在冲突类型的制胜方案,后更聚焦反恐和非常规战争领域。
澳大利亚的多域防御战略主张结合技术优势,依托通信、情报和天基能力构建五域一体防务体系,要求应对来自陆、海、空、天、网的多元军事威胁。俄罗斯虽理论建构较少,但实践了涵盖军事、信息、经济、能源频谱及政治影响行动的全谱冲突,有学者据此提出统合暴力/非暴力手段、贯穿和平至战争全强度谱系的冲突概念,强调需要中央统一指挥实现政治目标——若严格限定战争定义,诸如粮食制裁和偏见新闻传播等手段则不被纳入。
本文是三部分系列文章的第二篇,该系列探讨自主武器系统(AWS)整个生命周期中的人类控制。本系列旨在理解决策过程并识别关键决策者,以了解人类判断如何被嵌入到自主武器系统的参数中。本系列的每篇文章侧重于生命周期的不同阶段。第一篇文章讨论了软件开发者与设计师在设计与开发阶段的作用和责任。本文着眼于指挥官在与自主武器系统部署相关的决策中的作用。系列第三篇文章将考察在作战环境中部署自主武器系统时操作员的决策。
指挥官在人类控制的讨论中扮演着重要角色,但迄今为止,其角色的特殊性尚未得到充分审视。他们的角色通常在指挥责任这一独立的讨论中被考量,但较少将其作为人类控制的反映或组成部分,放在指挥决策的背景下考量。然而,正如本文所示,指挥官负责自主武器系统部署的关键要素,例如确定自主武器系统可接受的使用参数,并界定其运作的战略和作战环境。现有关于人类控制的研究大多聚焦于软件设计师和开发者及其在创建人工智能系统方面的功能。但指挥官决策是一个重要的连接点,它确立了在适当环境中使用的边界条件,并制定了将最终定义未来自主武器系统使用参数的协议和流程。因此,指挥官对于人类控制的贡献值得更多关注。
本系列第一篇文章考察了围绕自主武器系统的技术、政治和组织发展及演变,指出各国处于不同的技术能力、发展和政策实施水平。同样,各国也拥有不同的指挥结构和决策协议,因此很难涵盖不同武装力量的指挥官在部署自主武器系统时将涉及的所有可能途径。由于这一限制,除非另有说明,本分析的其余部分将主要讨论美国的自主武器系统政策、指挥结构和决策流程。这是因为美国是一个技术先进的国家,目前在军事人工智能领域处于领先地位,并且其自主武器系统政策的公开透明度相对较高。在适用的情况下,本文会纳入其他国家关于指挥决策和自主武器系统的观点或已公开的立场,但重点将主要放在美国。
美国指挥官的决策过程需要进一步澄清。指挥官存在不同层级,每个层级都有其自身的职责。在自主武器系统的背景下,关于不同层级指挥官实施这些新能力的协议存在不确定性。尽管如此,一些工作正在进行中,以解决这些不确定性并澄清每个指挥层级在部署自主武器系统时的角色和责任。本文讨论了三个层级的指挥决策。首先,回顾了美国国防部第3000.09号指令中概述的作战司令部司令的角色和职责。其次,考虑了战区级作战指挥官在制定交战规则(ROE)过程中评估和整合自主武器系统的作用。最后,着眼于战术级指挥官,他们通常对新武器系统拥有最丰富的经验,并负责训练、测试和监督新整合的自主武器系统。正如将进一步讨论的,战术层级很可能负责自主武器系统的维护,包括软件更新,以及处理战区内测试与评估(T&E)和已部署自主武器系统的法律审查所涉及的不确定性。
在泰雷兹作为关键应用人工智能领域的欧洲领导者,创建了一个集前沿研究、产品开发和运营部署于一体的真正的创新生态系统。
人工智能带来的作战效益是切实且广泛的:改善复杂环境中的信息(通常是关键信息)分析和决策能力,优化能效和环境影响,并以无与伦比的精度检测、识别和分类监视信息,即使在最具挑战性的条件下也是如此。本文探索人工智能在关键系统中产生影响的一些具体实例。
防务领域应用案例
摘要——随着大语言模型(LLMs)的兴起,具备自主推理、规划与复杂任务执行能力的LLM智能体正成为人工智能领域的前沿方向。然而,如何将通用智能体的研究成果转化为推动产业变革的生产力,仍是一个重大挑战。为此,本文系统回顾了基于LLM的产业智能体的核心技术、典型应用与评测方法。基于产业智能体能力成熟度框架,本文描绘了智能体在产业场景中的演化路径——从“流程执行系统”迈向“自适应社会系统”。首先,我们梳理了支撑智能体能力演进的三大关键技术支柱:记忆(Memory)、规划(Planning)与工具使用(Tool Use),并探讨了这些技术如何从早期支持简单任务的形式,发展到支撑复杂自治系统与群体智能的高级形态。其次,本文综述了产业智能体在现实世界中的典型应用,包括数字工程、科学发现、具身智能、协同商业执行与复杂系统仿真等领域。此外,我们回顾了智能体基础与专用能力的评测基准与方法,并指出当前评测体系在真实性、安全性与行业特异性方面所面临的挑战。最后,本文聚焦产业智能体的实践难题,探讨其能力边界、发展潜力与治理议题,并展望未来研究方向。通过结合技术演进与产业实践,本文旨在厘清当前研究现状,为理解与构建下一代产业智能体提供清晰的路线图与理论支撑。 关键词—— 大语言模型(LLMs),产业,智能体,真实世界。
近年来,大语言模型(Large Language Models, LLMs)取得了突破性进展。通过在海量数据上的预训练,它们展现出前所未有的语言理解、生成与推理能力 [1]–[3]。然而,作为静态、无状态的预测模型,LLMs 主要局限于处理文本输入并生成相应输出,难以主动与外部世界交互,或执行需要长期记忆与多步推理的复杂任务 [4], [5]。为克服这一局限,研究者开始将 LLM 作为“智能体的大脑(brain)”,构建能够感知环境、规划、执行与交互学习的自治系统 [6]。这些基于 LLM 的智能体集成了记忆模块、规划算法与工具调用接口,将 LLM 的认知能力与环境中的动态交互相结合,从而形成了能够自主实现开放性目标的通用智能体原型。 随着通用智能体从理论走向实践,其应用场景不可避免地从简单、通用的数字环境扩展到复杂、知识密集且高风险的产业领域 [7]。这催生了“产业智能体(Industry Agent)”的概念。产业智能体是指部署于特定业务场景中的自治或半自治系统,能够利用领域知识与专用工具解决真实产业问题。例如,Xia 等人展示了基于 LLM 的智能体如何通过任务规划、底层控制接口调用与数字孪生交互来编排模块化生产系统 [8]。与通用智能体相比,产业智能体面临更严峻的挑战:它们不仅需要具备通用认知能力,还必须应对行业特定需求——如金融领域的高时效与高风险 [9],医疗领域的权威知识与安全合规性 [10],以及制造业中的物理约束与流程复杂性 [11], [12]。关键问题在于,如何将通用智能体框架与深层行业知识、复杂业务流程及严格的安全标准相结合,从而将智能体的潜能真正转化为现实生产力。 与此同时,随着基于 LLM 的智能体研究的快速发展,已有大量优秀的综述工作从不同维度为我们理解该领域提供了重要视角。一类综述聚焦于智能体的核心技术模块,例如 [13] 系统性回顾了智能体的记忆机制;[14] 对智能体的规划能力进行了分类与分析;[15] 则全面总结了工具学习的范式与实现方式。此外,[16] 从上下文工程的角度优化了 LLM 推理过程中的信息负载,为高效智能体交互提供了理论支撑。这些工作为深入理解智能体的技术细节奠定了基础。 另一类综述则聚焦于通用智能体的体系结构与能力。[6], [17] 提出了通用智能体框架并对现有架构进行了分类,同时 [18], [19] 探讨了推理与自进化等高级能力的实现路径。值得注意的是,[20] 从类脑认知视角提出了智能体的感知、认知与操作模块化模型,并进一步讨论了自增强进化、多智能体系统与安全部署等关键议题。 还有一些综述聚焦于特定应用领域或前沿范式。例如 [21], [22] 研究了智能体在科学发现与金融交易中的应用;[23], [24] 探讨了多智能体系统与智能体化 RAG(Agentic RAG)范式;[25] 则全面回顾了基于 LLM 的智能体建模与仿真研究,涵盖信息、物理、社会及混合系统等场景。[26] 聚焦于自治科研智能体,提出了系统化的构建方法与评测蓝图;而 [27] 则从数据与模型协同演化视角,给出了科学 LLM 与智能体发展的数据中心化系统综述与路线图。 尽管这些研究贡献卓著,但仍缺乏一个能够结合技术演进、应用实践与能力层次的系统化框架,尤其是面向产业落地的视角。为弥补这一空白,本文对基于 LLM 的产业智能体进行了全面综述。具体而言,本文围绕三个核心方向展开:技术基础、应用实践与真实世界评测。首先,我们深入剖析支撑智能体能力的三大核心技术——记忆、规划与工具使用,并探讨其演进过程;其次,我们基于五级能力成熟度框架,系统呈现产业智能体在各行业的应用全景;接着,我们梳理了基础与行业专用能力的评测基准与方法,并指出其局限性;最后,我们聚焦产业智能体在实践中面临的深层挑战,探讨其瓶颈、未来发展方向与应对策略。 综上,本文的主要贡献包括: 1. 提出产业智能体能力成熟度框架:本文创新性地提出了产业智能体的能力成熟度框架,为评估与理解智能体在不同行业中的角色与价值提供了清晰指标。 1. 构建技术与应用的关联:本文将三大核心技术——记忆、规划与工具使用——的演化与能力层级相结合,展示技术进步如何驱动应用实践的提升。 1. 聚焦产业实践与评测体系:本文系统回顾了智能体在关键行业中的应用与专业评测基准,紧密结合真实产业需求与挑战。
通过这一独特视角,本文旨在打通智能体跨领域应用的壁垒,促进智能体在真实世界中的成熟化与繁荣发展。
近年来,基于大语言模型(LLMs)构建的智能体取得了显著进展。它们在处理复杂任务方面不断增强的能力,正推动人工智能的研究与应用迈向更高层次的认知智能。早期的智能体研究往往局限于特定任务场景;而新兴的 LLMs 凭借其强大的通用语言理解、推理与交互能力,极大地促进了能够应对开放域复杂任务的通用智能体的出现。 目前,一个完整的通用智能体框架通常依赖于三大核心技术支柱:记忆(Memory)、规划(Planning)与工具使用(Tool Use)。其中,记忆负责信息的编码、存储与检索;规划涉及目标分解及行动序列的制定与优化;工具使用则体现智能体调用外部 API 或程序以扩展自身能力的能力。这三大核心模块相互交织、协同工作,构成了智能体感知环境、形成认知与采取行动的基础,使其能够从被动的指令执行者演化为能够持续与环境交互、并自主实现复杂目标的自治实体。 然而,随着智能体研究逐步走向真实世界,其核心架构中的认知瓶颈愈发显现,这些问题集中体现在记忆、规划与工具使用三大能力的局限性上。
在**记忆(Memory)**方面,有限且单一的上下文窗口使智能体难以维持长期且连贯的交互历史,从而导致“长上下文遗忘”等问题。同时,如何从庞大、噪声丰富、结构化程度低的动态环境信息中筛选、提炼并形成结构化且有效的记忆,以避免信息过载与认知偏差,仍是重要的技术瓶颈。
在**规划(Planning)方面,真实世界的高度动态性与不确定性使基于静态世界假设的简单规划方法难以奏效。智能体必须具备在执行过程中动态调整计划、应对异常并从失败中学习的能力,这对其长期目标分解与高效推理提出了极高要求。 在工具使用(Tool Use)**方面,随着工具库规模与复杂度的增加,如何精确选择、组合与调用合适的工具以解决问题,以及如何应对工具执行失败或异常结果,成为制约智能体能力上限的关键因素。
这些现实的技术挑战共同构成了智能体从理论框架到实际落地之间的“能力鸿沟”。 为系统分析产业智能体如何从简单的流程自动化工具演化为能够解决复杂领域问题的核心系统,本文提出了一个面向产业应用能力成熟度的五级框架(L1–L5)。该框架旨在揭示产业智能体在不同能力层级间的跃迁,实质上是由三大核心技术——记忆、规划与工具使用——的演进所驱动的。例如,L1 级的“流程执行系统”(Process Execution System)仅需具备瞬时记忆与固定的线性规划,而 L5 级的“自适应社会系统”(Adaptive Social System)则要求智能体具备跨代进化的群体记忆积累能力,并能在复杂博弈中自主生成目标。
接下来的章节将深入探讨这三大核心技术模块,分析其技术演进如何支撑产业智能体能力的持续升级,从而为产业智能体的发展实践奠定理论基础。
在线学习(Online Learning)是学习理论中的一种基础范式,主要研究如何从序列化数据中进行预测的问题。最初,在线学习被提出作为一种可学习性的数学模型,而如今,它已发展成为一个通用而灵活的理论框架,被广泛应用于优化、控制、经济学等多个领域,推动了算法创新与实证研究的进步。本论文系统探讨了在线学习的多方面理论问题,涵盖其基本极限与在优化和控制中的应用。 论文的第一部分聚焦于在线凸优化(Online Convex Optimization)。我们提出了更高效的自适应遗憾最小化算法,在查询效率与投影效率上均实现了改进。同时,我们还针对更具挑战性的在线非凸优化(Online Non-Convex Optimization)问题,提出了一种新的归约方法。 论文的第二部分关注在线非随机控制(Online Nonstochastic Control),这是对经典最优控制理论的推广,放宽了对代价结构与扰动模型的假设。我们提出了一种新的框架,用于控制边界稳定线性动态系统(Marginally Stable Linear Dynamical Systems)——这一类系统历来以分析困难著称。此外,我们设计了一种适用于具有一般损失函数的bandit非随机控制最优算法,并进一步开发了一种能够整合多个基础控制算法的元算法(meta-algorithm)。 论文的最后一部分转向**学习理论(Learning Theory)中的核心问题。我们建立了一种用于归纳推理(Inductive Reasoning)的充要条件——这是流行病学中的一个基础性问题——并揭示了其与在线学习理论之间的新联系。同时,我们还在多模态学习理论(Multimodal Learning Theory)**方面提出了新的结果,展示了在统计与计算层面上均可证明的性能优势。 综上所述,本论文在推进在线学习理论理解的同时,也拓展了其在更广泛领域中的适用性,为研究者与实践者提供了新的洞见与方法工具。
联合战区级模拟-全球行动(JTLS-GO®)是一个交互式的、支持网络化的联合与联盟兵棋推演系统。JTLS-GO 从全球一体化的作战层级视角,呈现军民决策环境,涵盖空中、陆地、海上、太空、情报、后勤和特种作战。这些环境可以配置和缩放,以检验战略国家(SN)、战略战区(ST)、作战(OP)和战术(TA)级别的联合任务、行动、功能和使命。需要理解的是,JTLS-GO 主要是一个作战层级的模拟。
执行概述描述了模拟的基本操作,包括构成该系统的主要软件程序和众多小型支持程序。这些多样且相互依赖的程序协同工作,以准备想定、运行模拟并分析结果。本概述还提供了运行模拟所需的软件和标准硬件的说明。根据训练或分析环境及想定规模,JTLS-GO 可在一台或多台计算机上同时运行,无论是在单一地点还是多个分布式站点。它是战区无关的,且无需编程知识即可执行。第 iv 页重点介绍了一些新的模拟能力和特性。
JTLS-GO 是一个复杂的模拟系统,专门设计用于研究不断变化的战争形态。来自作战司令部(COCOMs)、各军种、预备役部队、国民警卫队、战斗支援机构(CSAs)、联合参谋部(JS)和联合特遣部队(JTFs)的领导人和主管,包括北约和联盟军事力量,都理解这一点,因为他们必须在国家战略的背景下持续进行规划、计划、预算和财政政策的执行。
战争形态的演变日益聚焦于第一人称视角(FPV)武装无人机的融合,其结合了低成本的可获得性与高精度的杀伤力。本文探讨了FPV战斗飞行的机理、战术角色和心理层面,特别是在高海拔区域(HAA)和控制线(LC)场景下的应用。与先进的无人机和制导弹药不同,FPV无人机在对抗性和GPS拒止环境中为操作员提供了实时手动控制、敏捷性和适应性。研究借鉴了近期冲突(如俄乌战争),重点阐述了FPV无人机在侦察和打击行动中的双重作用,同时也探讨了其局限性,包括有效载荷能力、电子战威胁和极端环境条件。未来的建议强调结构化的训练、部队选拔、AI辅助模拟和战场创新,以提升作战效能。FPV无人机正在重塑现代战争的战术和心理格局,并仍然是未来战斗结果的关键决定因素。
关键词:FPV无人机,战斗飞行,高海拔作战,乌克兰-俄罗斯冲突,无人机战术,电子战,步兵集成,战场创新
随着战争形态的演变,其背后的技术也在发展。自20世纪初以来,对飞行的追求改变了战场动态,如今在第一人称视角(FPV)武装无人机上达到顶峰。这些系统为飞行员提供了鸟瞰视角和无与伦比的敏捷性,使得一度仅属于战斗机飞行员的快速决策和精确打击成为可能。FPV飞行不仅仅是一种工具,更标志着一种战术和心理上的转变(Kozatskyi, 2023),在人机之间建立了近乎本能的连接。其影响在诸如俄乌战争等冲突中尤为明显,其中FPV无人机已被证明在侦察、火力支援和直接攻击敌方资产方面不可或缺(Ibrahim A., 2024)。与传统空中平台不同,这些无人机在对抗环境中表现出色,能够突破常规防空系统,以极高的精确度投送致命载荷。本文审视了FPV战斗飞行的复杂机理、这些无人机在高海拔战争(尤其是在LC场景下)中的战术角色、它们在HAA中面临的作战挑战,以及在现代战争中适应和发展无人机作战日益增长的需求。
FPV无人机和反坦克导弹(ATGM)都遵循飞行的基本原理(即俯仰、横滚、偏航和油门控制),但由于其设计和目的不同,在敏捷性和控制方面差异巨大。反坦克导弹主要遵循预定路径,机动性有限,仅能进行微小的飞行中修正。相比之下,FPV无人机是完全手动的,并利用六自由度(6DOF),允许进行实时、全方位的动态机动。无人机可以急剧调整俯仰角进行俯冲或掠地飞行,横滚以躲避障碍物,偏航以在飞行中重新调整方向,并通过调节油门实现悬停或立即加速。这种高水平的控制赋予FPV无人机显著的战术优势,尤其是在地形复杂且敌方防御需要高度适应性的高海拔环境中。反坦克导弹由于其可预测性而易受主动防护系统攻击,而FPV无人机凭借其不规则的飞行轨迹和实时操控,更难被跟踪或拦截(Ibrahim A., 2024)。此外,无人机更具成本效益,单价仅低于2.5万卢比,而反坦克导弹则需数十万卢比,同时它还提供双重功能——实时侦察和精确打击(Kozatskyi, 2023)。与反坦克导弹不同,它们不受后喷焰、最小射程或固定弹道的限制。能够重新定位、中止任务或从多角度攻击的能力,使得FPV无人机成为现代战争中一种多功能且经济实惠的选择。步兵在手动操控反坦克导弹时早已运用了飞行原理——如今,同样的本能和技能可以无缝转移到FPV无人机操作上。
机器人已至。人工智能(AI)或人工智能自动化,正伴随着社会中本质上并非纯技术性的讨论而展开。相反,AI高度嵌入社会、伦理、法律和政治话语之中。关于机遇与风险的问题随之产生。人工智能在公众中引发了担忧和恐惧,并且在冲突中——因而也在军事背景下——扮演着越来越重要的角色。
如同任何发展路径和影响尚不明确的新技术一样,对AI的未知引发了各种看法和恐惧,这些看法和恐惧体现在广泛的辩论中。显然,为了做出明智的决策,我们需要更广泛的知识和讨论。美国计算机科学家和未来学家杰里·卡普兰(Jerry Kaplan)警告不要对人工智能持有简单化、片面化和缺乏依据的看法。他指出:“以人类智能为基准来衡量机器智能是徒劳无功的。人们倾向于将能力日益强大的计算机程序视为初具意识的胚胎生物,可能对人类构成某种生存挑战。[…] 这种拟人化的框架强化了一种常见的说法,即智能机器可能突然‘觉醒’并产生意识,可能衍生出它们自己的意图、目标、判断和欲望。天啊,‘它们’什么时候会来取代我的工作、我的家、我的生活?如果它们决定不再需要我们,我们该怎么办?好吧,最新消息是:它们不会来找我们,因为根本没有‘它们’。尽管表面如此,但其内部并无‘居住者’。通用人工智能(GAI)并非以人类的方式‘思考’,它们没有‘心智’。”(Kaplan, 2024, p. 6)
未知的悖论似乎已写入人类的文化密码之中,一方面,新事物和未知事物激发出巨大的兴奋感和对进步(想看看下一个转角有什么)的渴望;而另一方面,新事物和未知事物也是危险的来源,并引发最严重的生存恐惧。考虑到这一点,认识到影响对人工智能自动化态度和接受度的文化根源至关重要。不可能在单一学科内解决这些问题。技术系统与人类系统及其相互关系的复杂性需要多学科的交流,并考虑到从个体到大型社会系统等不同层面的影响。唯有如此,知识才能引向明智和知情的决策。
军事领域中的人工智能自动化备受关注。 基于AI的技术正在改变战争的性质,从提供态势感知和以“机器速度”辅助决策的技术,到战场上可能出现的致命武器系统。将人工智能和自主性引入战争将对国家安全和人类社会产生深远且不可预见的后果。似乎有太多利害关系——危险和风险似乎无限高。特别是在军事应用方面,人工智能自动化引发的许多问题如同通过聚焦镜般凸显出来。这在关于致命性自主武器系统(LAWS)的辩论中变得尤为明显——从部署此类系统所涉及的伦理和法律视角来看。
一方面,自动化显然发生在生活的各个领域,并且在军事领域尤为重要。期望在一个承载着获得对敌优势和效能期望的领域不发生自动化是天真的。另一方面,这带来了压力,要求更仔细地考量可能的风险和不良后果。应当明确,在军事背景下不当使用技术或使用技术上不可控的技术本身是不道德和非法的。伦理原则和国际法适用于新兴技术,其方式与适用于传统技术相同。伦理框架应包含负责任应用技术的原则和适用于军事AI并指导开发者、制造商、采购方和军事最终用户的“数字伦理”。唯有如此,才可能克服对使用该技术“灰色地带”的恐惧,以及对难以预测或在其发生甚至技术发展至此之前赋予其法律效力的、涉及军事AI的“无先例情景”的恐惧。
本书的背景也是关于致命性自主武器系统(LAWS)的利弊乃至禁令的辩论(Reichberg & Syse, 2021)。 这就提出了一个问题:“自主性”究竟意指为何(Koch, 2019, p. 27)。在欧洲议会于2018年9月通过的一项决议中,这被理解为指“在目标选择和接战等关键功能上缺乏人类控制”的武器(RC-B8-0308/2018, 2018, L.4.)。应确保“对武器系统的关键功能,包括在部署期间,进行有意义的人类控制”(RC-B8-0308/2018, 2018, L.2.)。然而,欧盟成员国的各自立场差异很大。在全球层面更是如此(Dahlmann & Dickow, 2019, pp. 17–23)。
在伦理辩论中,通常区分义务论(deontological)和后果论(consequentialist)的论证。根据义务论的论证,“行为、原则、法律或性格特征的道德价值不仅由其效果决定,也由其内在价值决定,而内在价值可能受到例如意图、动机或所评估行为或原则的类型的影响”(Bodziany, 2021, p. 56)。相反,后果论的论证指出“行为、规则、法律、性格特征或制度的非工具性、内在道德价值仅在于其效果”(Bodziany, 2021, p. 56)。反对使用LAWS的最著名的义务论论证是认为使用此类系统侵犯了人的尊严(Koch, 2019, pp. 30–31)。根据这一论证,技术自动化机制原则上不具备做出良心决策的能力。此类武器系统的目标“仅仅是数学计算出的杀戮决策的对象”(Geiß, 2019, p. 54)。3 “对于自主系统来说,它面对的是土豆袋、动物还是人类,完全无关紧要”(Koch, 2019, p. 31)。反对LAWS的后果论论证则适用,例如,当指出与使用此类技术相关的巨大风险时(Koch, 2019, pp. 32–33)。所讨论的此类风险之一是不稳定的军备竞赛(Altmann, 2019)。
禁止使用的论点也遭到反驳。 例如,迪特·比恩巴赫(Dieter Birnbacher)(2016年,第120页)认为:当然,机器无法理解人类生命的价值。但是,如果受害者面临的替代威胁是来自诸如轰炸机等有人操控武器的伤害或杀戮,那么这对受害者而言又有什么不同呢?对于那些尊严受到威胁的受害者来说,只要情况的所有其他参数相同,他们所面临的威胁是来自有人还是无人武器是无关紧要的。
然而,从社会学的角度来看,将技术自动化的使用置于具体情境中至关重要——无论其在话语中被描述得多么“智能”。这里特别重要的是使用技术自动化的组织情境(卢曼,1966年)。当然,这也适用于军队。在武装部队中,所有“自主”系统都应像任何士兵一样,服从指挥。他或她在指挥链中“自主”行动。这同样适用于“自主”人工智能系统,不同之处在于它们不理解自己在做什么。正如技术社会学中可能说的那样,它们在因果关系的媒介中运作,而不是在意义的媒介中运作(埃斯波西托,2022年;哈尔夫曼,1996年)。但没有人需要以永久偏离常态的方式运作的机器——没有公司、没有当局、没有军队、没有私人用户。正如人类社会行动者或组织一样,机器也应在规范定义的期望框架内运作。
在这个意义上,这些系统实际上并非严格意义上的“自主”,而是半自主的。从这样的社会学视角来看,人类(在社会角色中)是并且应当对人工智能武器系统的行为负责(科赫等人,2024年;斯普林,2023年)。这种方法也带来伦理后果。在什么条件下,士兵能够良心无愧地承担使用具有致命效果的人工智能武器系统的责任?这背后的理念是,这种问责制确保了人工智能武器系统的使用受限于社会的伦理框架,从而限制了这种武器技术所提供的潜在暴力。这不是关于禁令,而是关于在负责任处理的含义下的遏制。
在这样的社会学背景下,在军事中使用AI技术并非全无问题;事实上,情况恰恰相反。然而,这并不能证明全面禁止是合理的——更重要的是审视使用的具体情境,而这些情境是多种多样的。例如,它们包括法律与伦理、军事组织与社会沟通、媒体技能、机器人技术的文化概念、人机交互(HMI)、开发背景以及当然还有战场上决策过程的复杂性。这表明需要一种跨学科的方法,这也是我们希望通过本书来鼓励的。
毫无疑问,人工智能自动化如同任何新技术一样,承载着担忧和风险。人们可能会因此望而却步,但那样的话,也应该停止谈论创新和进步。最终,正如卢曼(1993年,第89页)指出的,新技术只有通过尝试、在社会中实施并反复反思才能变得安全。还必须看到,新技术使社会能够增加其复杂性。例如,有了一座桥,交通、贸易和沟通的新可能性就出现了。
本书汇集了来自科学界、政界和军方本身对军事AI应用的多学科、差异化、知情且开放的方法。基于人工智能自动化发展所提出的问题,本书设定了一项任务,即批判性地审视当前和未来军事技术领域的挑战。
第一部分探讨了与技术进步(包括人工智能)相关的文化和社会话语。它审视了影响人工智能自动化发展,更重要的是影响对其态度和接受度的流行、科学和政治话语的文化起源。迪尔克·斯普林(Dierk Spreen)和凯里·塔尔维斯(Kairi Talves)分析了作为技术自动化话语主题的机器人恐惧在整个现代历史的若干文化叙事中是如何被反映的。人工智能自动化的理念自其发展初期就创造了巨大希望,但也带有警示标志,这使得公众讨论充满了既迷恋又恐惧的矛盾心理。在下一章中,迪尔克·斯普林(Dierk Spreen)就人类增强(human enhancement)的伦理和社会方面进行了讨论,延续了类似的主题。他分析了赛博格(cyborg)——人体与现代技术之间的共生关系——这一概念如何与技术进步以及关于人体的后人类主义话语相结合。人类增强引起了军方的兴趣,并需要在这一社会领域进行伦理反思。文化产物可能强烈影响对未知事物——人类与技术的未来——的沟通。贝恩德·弗莱斯纳(Bernd Flessner)的章节对此进行了审视,他讨论了科幻小说在这一沟通领域中的作用。科幻小说作者勾勒出的未来让我们得以一窥即将到来的景象,因此被视为关于多样化转型的文化投射的重要来源。费迪南德·格林格(Ferdinand Gehringer)和亚历山大·舒斯特(Alexander Schuster)专注于政治舞台,通过分析关于AI军事应用潜在监管限制的国际辩论。对军事应用中AI的监管是当前和未来安全秩序的关键方面,但这需要国家间采取动态的倡议和建立动态的监管框架。凯里·塔尔维斯(Kairi Talves)、普里特·瓦尔诺(Priit Värno)和埃勒里·利勒梅(Eleri Lillemäe)介绍了一项关于小国武装部队对自主技术的态度和接受度的实证研究。他们考察了在爱沙尼亚,在受全球技术和安全挑战影响的特定背景下,军方的态度如何影响武装部队中技术自动化的推进。
本书第二部分将注意力转向在军事冲突中使用人工智能所带来的挑战与变革。 它提出了军事组织中哪些方面是变革的关键点这一问题,同时也审视了伦理与法律层面。它考察了军事组织的作用、其基本概念及其条令,以及人的因素在自主技术的开发与实施中的影响。伊戈尔·科皮亚京(Igor Kopõtin)、卡雷尔·皮里迈(Kaarel Piirimäe)和阿尔托·奥尔(Arto Oll)从历史视角分析了技术在军事冲突中的作用。他们认为,任何军事技术发明只有成功融入军事组织并且其使用与军事行动目标相关联时才能发挥效力。战争仍然是人与人之间的战争,人的因素将永远是决定性的,因为武器,无论其为何物,将始终是人类手中的工具。类似地,沃尔夫冈·科赫(Wolfgang Koch)、约尔格·福尔默(Jörg Vollmer)和弗洛里安·凯辛格(Florian Keisinger)的章节指出,开发和部署基于人工智能的防御技术不仅仅是一个技术创新的方面。它影响着武装部队思维和行动的整体方式。在军事领域负责任地使用人工智能是必然要求,这需要在人工智能开发与部署的全谱系——包括研究、开发和防御规划界——中贯彻“数字伦理”。彼得·安德烈亚斯·波普(Peter Andreas Popp)以德国联邦国防军的领导力概念“内部领导”(Innere Führung)为例,探讨了构成军事精神“价值指南针”的原则与人工智能自动化等军事技术发展之间提出了何种挑战。斯图尔特·凯西-马森(Stuart Casey-Maslen)审视了与自主武器系统发展相关的法律挑战。武装冲突的合规性是一个快速增长的辩论主题。
第三部分探讨了在军事中实施人工智能所带来的沟通挑战及其相关的机遇与风险。 只有当背景和影响被恰当理解时,沟通才能搭建桥梁。在技术领域尤其如此,其沟通要素依赖于技术维度的风险、信任、责任和问责制,并与之紧密相连(Koch等人,2024年)。索尼娅·索萨(Sonia Sousa)、加布里埃拉·贝尔特朗(Gabriela Beltrão)、尤利娅·帕拉莫诺娃(Iuliia Paramonova)和德博拉·C·菲尔米诺·德索萨(Debora C. Firmino de Souza)探讨了可信系统设计的概念,认为这是整合和缓解与人工智能系统相关的可能沟通挑战并增强用户对人机相互关系的信任的一种可能性。娜塔莎·佐维斯洛-格吕内瓦尔德(Natascha Zowislo-Grünewald)和弗朗兹·拜辛格(Franz Beitzinger)处理了沟通挑战的另一个方面——关于军事技术创新。应对这一沟通挑战不仅仅是信息的传播;它需要理解受军事组织创新影响的社会和符号学背景。在下一章中,娜塔莎·佐维斯洛-格吕内瓦尔德(Natascha Zowislo-Grünewald)讨论了术语和统一定义的重要性,认为这对于像人工智能这样的新技术的沟通和实现互操作性至关重要。在最后一章中,弗兰克·奥勒·弗莱米施(Frank Ole Flemisch)、迪尔克·斯普林(Dierk Spreen)、玛丽-皮埃尔·帕科-勒穆瓦纳(Marie-Pierre Pacaux-Lemoine)、本杰明·J·诺克斯(Benjamin J. Knox)、凯里·塔尔维斯(Kairi Talves)和约翰·克里斯托弗·布里尔(John Christopher Brill)介绍了“整体蝴蝶结模型”(holistic bowtie model),这是一个多层概念方法,从系统理论的角度解释关于国防中人工智能和自动化的整体性思考。
此处收录的文章旨在帮助理解社会背景中的人工智能。 军事组织尤其值得关注。自然,“负责任的信息处理”问题在“作战部队”中尤为严峻地出现(卢曼,1995年,第176页)。另一方面,军队也是社会的功能系统之一(达曼,2022年,第121页)。这意味着,军事人工智能系统的例子能特别好地聚焦于应用人工智能自动化可能产生的问题。我们关注的是确保人工智能在军事以及社会的其他功能背景中得到负责任的使用,即,它仍然服从于处于组织角色中的人类行为者的问责和控制。
引言:人工智能正在走向战争
理解人工智能
对机器人的恐惧:技术自主性的文化视角
赛博格士兵与伦理强化
科幻小说中的自主武器系统
“SMART倡议”:在未来战场上使用人工智能的政治限度?
小国背景下人工智能军事技术的接受模型
人工智能与军事冲突
战争中人的因素与军事技术:历史视角
未来战争中负责任地使用人工智能系统
从“内部领导”(Innere Fuehrung)视角看人工智能(AI)与联邦国防军
国际法下的自主武器系统
沟通面临的挑战
可信系统设计:人的因素视角
沟通军事创新面临的挑战
混合战争与话语防御
防御系统中基于人工智能技术的整体蝴蝶结模型
近日,中国信息通信研究院人工智能研究所、中国人工智能产业发展联盟和全国智能计算标准化工作组在全国智能计算标准化工作组2025年度全体会议上发布《科研智能:人工智能赋能工业仿真研究报告(2025年)》(以下简称《报告》)。 《报告》基于科研背景,全面梳理了AI赋能工业仿真的技术路径与实践脉络。首先探讨人工智能赋能工业仿真的必然性及其应用价值,然后聚焦于CAD、CAE 两大核心领域,对比分析国内外技术路线与应用现状;在关键技术层面,解析数据驱动、物理驱动及融合驱动这三类 AI仿真方法的本质区别与适适用场景;通过轨道交通航空航天、轻工业、汽车工业及工程建筑等领域的实践案例,验证AI仿真的规模化应用潜力及应用前景;最后,分析AI仿真面临的核心挑战,并对其未来发展趋势进行展望。
报告全文
大型语言模型(Large Language Models, LLMs)的出现,通过开放式自然语言交互,彻底变革了信息获取与推理方式。然而,LLMs 仍受限于静态知识、事实幻觉(factual hallucination)以及无法检索实时或特定领域信息等问题。检索增强生成(Retrieval-Augmented Generation, RAG)通过将模型输出与外部证据对齐,有效缓解了这些局限,但传统的 RAG 流水线往往是单轮且启发式的,缺乏对检索与推理过程的自适应控制。
近年来,智能体化搜索(agentic search) 的兴起通过让 LLMs 能够在搜索环境中进行多步交互式的规划(plan)、检索(retrieve)与反思(reflect),突破了这一限制。在这一新范式下,强化学习(Reinforcement Learning, RL) 提供了一种强大的机制,用于实现自适应与自我改进的搜索行为。
本综述首次系统梳理了基于强化学习的智能体化搜索(RL-based agentic search)研究进展,从三个互补维度组织这一新兴领域:(i)RL 的功能角色(what RL is for),(ii)RL 的使用方式(how RL is used,即优化策略),以及(iii)RL 的应用范围(where RL is applied,即优化作用域)。我们总结了具有代表性的研究方法、评估协议与应用实例,并探讨了构建可靠且可扩展的 RL 驱动智能体化搜索系统面临的开放挑战与未来方向。 我们希望本综述能够激发更多关于强化学习与智能体化搜索融合的研究。相关资料库可访问: 👉 https://github.com/ventr1c/Awesome-RL-based-Agentic-Search-Papers
大型语言模型(Large Language Models, LLMs)[137, 189, 242] 在自然语言理解、推理与生成方面展现出前所未有的能力,从根本上重塑了用户获取与交互信息的方式。尽管如此,LLMs 仍存在若干局限:它们受限于静态知识截止点(static knowledge cutoffs)[32],易产生事实幻觉(factual hallucinations)[157],并且无法访问实时或特定领域的信息。为应对这些挑战,检索增强生成(Retrieval-Augmented Generation, RAG) [57, 92] 范式应运而生,成为一种流行的解决方案。RAG 将 LLM 的推理能力与经典信息检索(Information Retrieval, IR)技术(如 TF–IDF [2, 172]、BM25 [154, 155] 以及基于链接分析的 PageRank 模型 [13, 18, 138])的精确性相结合。通过从外部知识库中检索证据并基于该上下文生成回答,RAG 能够使 LLM 生成更准确且事实依据更充分的输出,尤其适用于知识密集型任务 [9, 16, 49]。 然而,传统的 RAG 系统 [23] 通常是单轮(single-turn)且启发式驱动(heuristic-driven)的:只进行一次检索与一次生成,缺乏根据中间反馈动态调整检索策略或逐步优化查询的能力。被检索到的文档可能包含无关或噪声信息,从而阻碍下游推理 [20, 82–84]。此外,LLMs 往往难以充分利用检索到的证据,限制了整个流水线的有效性。这些局限促使研究者探索更具智能体特征的搜索系统(agentic search systems),其中 LLM 可作为自主决策者(autonomous decision-maker),在多步过程中动态地进行规划(plan)、检索(retrieve)、推理(reason)与反思(reflect)。 为此,研究者提出了搜索智能体(search agents)——即基于 LLM 的系统,能够与搜索环境进行多步交互 [78, 247]。不同于传统 RAG,搜索智能体可以迭代地生成与优化查询,评估检索结果的质量,并动态调整策略以解决复杂的多跳任务(multi-hop tasks)。这种从被动检索(passive retrieval)到主动智能体化(active agency)的转变,标志着信息检索范式的根本性变革。然而,早期的搜索智能体往往严重依赖手工提示(handcrafted prompting) [105] 或监督微调(supervised fine-tuning) [8, 148],限制了其自主发现最优策略的能力。 近年来,强化学习(Reinforcement Learning, RL) [178] 崭露头角,成为开发自适应(adaptive)与自主(autonomous)搜索智能体的有前景范式 [84, 202]。我们将基于强化学习的智能体化搜索(RL-based agentic search)定义为:通过训练一个 LLM 作为决策智能体,使其能够与搜索环境交互、接收外部反馈,并通过迭代改进策略来最大化奖励。这一形式化定义突出了三个核心特征: (i) 自主性(autonomy)——智能体可自主决定搜索行为; (ii) 学习性(learning)——策略通过强化学习获得,而非人工设计; (iii) 交互性(interaction)——智能体通过与搜索环境的多轮交互不断改进推理与检索能力。 尽管该领域发展迅速,但目前对 RL 驱动的智能体化搜索 仍缺乏系统性理解。如表 1 所示,现有综述 [58, 102, 220] 从不同角度探讨了智能体化搜索,但要么对 RL 的关注不足 [220],要么局限于特定子领域,如 Deep Research [102] 或 RAG [58]。关于 RL 在促进自适应与自主搜索行为中的作用,尚缺乏深入研究。 相比之下,本文是首个专门针对 基于强化学习的智能体化搜索 的全面综述。我们旨在阐明 RL 如何在三个互补维度上促进智能体化搜索的发展: (i) RL 的功能角色(What RL is for)——探讨其在引导检索、推理与决策中的作用; (ii) RL 的使用方式(How RL is used)——涵盖奖励设计、策略学习与高级训练方法等优化策略; (iii) RL 的应用范围(Where RL is applied)——考察 RL 干预的层级范围,从智能体级到步骤级与模块级。 针对每个维度,我们回顾了具有代表性的研究方法,并总结了新兴趋势。论文整体结构如图 1 所示: * 第 2 节介绍智能体化搜索与强化学习的基础; * 第 3 至第 5 节从上述三个视角系统探讨 RL 在智能体化搜索中的作用; * 第 6 节综述评估指标与典型应用; * 第 7 节总结开放挑战与未来研究方向。
本研究探讨将大语言模型(LLM)整合到航空航天防御系统工程项目中,以实现两个关键流程的自动化:通过系统理论过程分析(STPA)获取需求,以及为航空航天防御系统需求分配合规方法(MoC)。其动机在于应对传统方法劳动密集且易出错的问题,这些方法高度依赖人工专业知识。该研究专门评估了在先进提示词工程技术和微调方法指导下的LLM(例如GPT-3.5和GPT-4)的可行性和性能。这些方法旨在达到或超越该领域专家通常实现的准确性和质量。所研究的问题是手动需求工程和合规流程的低效性和多变性,由于航空航天防御系统对安全性和可靠性有严格要求,这些问题在该领域尤为关键。研究以一个假设的“无人作战飞行器”(UCAV)作为案例,并将研究置于巴西空军(FAB)的背景下,因为这些挑战在该背景下尤为突出。该方法涉及通过定制的提示词自动化STPA的第一阶段以生成系统需求,并训练一个微调模型以准确分配合规方法。其性能以真实系统数据和领域专家的输出作为基准进行衡量。研究结果强调,经提示词工程指导的LLM能够生成满足或超越九项已评估质量属性中八项的需求,这些属性包括可测试性、完整性、清晰性和可修改性。微调后的“gpt-3.5-turbo”模型在合规方法分配任务中达到了80.18%的准确率。最后,借助适当的技术,能够从真实产品的技术文档生成初步危险分析(PHA)等安全评估报告。这项研究的意义深远。通过简化需求获取、合规方法分配和工程报告生成,LLM减少了相关工程流程的时间、人力和成本,同时保持了高度的严谨性和可靠性。这项工作增进了学术界对LLM在安全关键系统中应用的理解,引入了一个可扩展、可复制的框架用于将LLM集成到工程工作流中,并为航空航天防御行业提供了实用工具。
本文共分为七章:
第一章介绍研究主题,提供全面的背景知识,将研究置于当前学术和工业界图景中进行背景阐述,并确立其重要性。清晰阐述了研究问题,随后提出了旨在验证该假设的假设和具体研究目标。本章还探讨了人工智能应用在我们社会中的更广泛影响。
第二章提出理论框架,简要概述与本研究相关的关键概念。本章作为基础,涵盖了系统理论过程分析(STPA)、大语言模型(LLM)、提示词工程以及航空航天防御系统中的自动化合规性等基本主题,从而使读者具备必要的理论背景。
第三章包含文献综述,批判性分析了该领域近期的研究成果,并将本研究置于航空航天自动合规性与安全分析学术进展的更广阔图景中。本章重点指出了现有文献的贡献与不足,从而强调了本研究的原创性和必要性。
第四章详述了为实现第一章概述的研究目标所采用的方法论。它描述了具体技术,包括使用既定的提示词工程技术进行STPA分析,以及用于自动化合规方法(MoC)分配的微调过程,并解释了这些技术与研究目标的一致性。
第五章展示研究成果。本章批判性地审视了所遇到的局限性,探讨了基于人工智能的自动化技术的潜在影响,并验证了第四章所采用的方法论。
最后,第六章对全文进行总结,概括了本研究在该领域的贡献和意义。本章反思了研究目标在多大程度上得以实现,并为未来在航空航天防御系统中应用人工智能驱动的分析与合规性方面的潜在工作提供了见解。
通过这种结构化的组织,本论文旨在提供一个全面且连贯的论述,引导读者从基础理论和文献到实践方法、结果,以及对研究更广泛影响的思考。