专知, 为人工智能从业者服务!

会员服务 ·

专业可信的知识分发

高级搜索

大语言模型

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

专知会员服务

10+阅读 · 12月20日

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

5+阅读 · 12月19日

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

7+阅读 · 12月19日

博士论文

【MIT博士论文】弱监督学习：理论、方法与应用

专知会员服务

0+阅读 · 9分钟前

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

7+阅读 · 12月19日

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

专知会员服务

16+阅读 · 12月18日

AI与军事

关注 1297

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《通过仿真与开源数据提升战略决策：机遇与局限》最新报告

人机协同时代的军事指挥控制演进

《战术突击工具包：军队的“边缘”操作系统》报告

《英国智库：瓦解俄罗斯防空系统生产，夺回制空权》最新报告

《认知战的历史视角：从冷战心理战行动到AI驱动的信息战》最新报告

Deep Research · 智能体 ·

12 月 3 日

Deep Research（深度研究）：系统性综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

摘要： 大型语言模型（LLMs）正迅速从文本生成器演化为强大的问题求解器。然而，许多开放任务要求具备批判性思维、多来源信息整合以及可验证的输出，这些超出了单轮提示或标准的检索增强生成（RAG）所能实现的能力。近期，大量研究开始探索 Deep Research（深度研究，DR），其目标是将 LLM 的推理能力与外部工具（如搜索引擎）相结合，从而使 LLM 具备作为研究型智能体执行复杂、开放式任务的能力。本综述系统而全面地审视了深度研究系统，包括清晰的发展路线图、基础组成模块、实践层面的实现技术、关键挑战以及未来方向。具体而言，我们的主要贡献如下： (i) 我们形式化提出了一个三阶段的发展路线图，并将深度研究与相关范式区分开来； (ii) 我们介绍了四个关键组成部分：查询规划、信息获取、记忆管理与答案生成，并为每一部分提供了细粒度的子类目体系； (iii) 我们总结了优化技术，包括提示工程、监督微调以及智能体强化学习； (iv) 我们统一整理了评测标准与开放挑战，旨在为未来发展提供指导与推动。随着深度研究领域的快速演进，我们将持续更新本综述，以反映该领域的最新进展。

1. 引言

经过大规模网页语料训练的大型语言模型（LLMs）正迅速从流畅的文本生成器演化为能够在实际复杂应用中执行长程推理的自主智能体 [224, 83, 465, 288]。它们在多个领域展现出强泛化能力，包括数学推理 [112, 466]、创造性写作 [95] 以及实用的软件工程 [118, 140, 166]。许多现实世界任务本质上是开放式的，要求批判性思维、基于事实的信息，以及能够独立成文的回应。这远远超出了单轮提示或静态参数化知识所能提供的能力范围 [122, 183, 289]。为弥补这一能力缺口，**Deep Research（深度研究，DR）**范式 [237, 97, 66, 481, 125, 202] 应运而生。DR 将 LLM 纳入一个端到端的研究工作流中，该工作流迭代式地分解复杂问题、通过工具使用获取证据，并将经过验证的见解综合为连贯的长篇回答。尽管该领域发展迅速，但仍缺乏对 DR 的关键组成、技术细节与开放挑战进行系统性分析的全面综述。现有工作 [458, 31] 多集中于相关领域的发展，如检索增强生成（RAG）与基于 Web 的智能体系统 [401, 200, 285, 456, 316]。然而，与 RAG [89, 72] 相比，DR 采用更灵活、更自主的工作流，不依赖手工构建的流水线，并旨在生成连贯且基于证据的报告。因此，对其技术图景进行清晰梳理已成为紧迫但仍具挑战性的任务。本综述通过提供对 DR 的全面综合来填补这一空白：将其核心组件映射到代表性的系统实现上，整合关键技术与评测方法，并为建立一致的基准测试和推动 AI 驱动的研究持续发展奠定基础。在本综述中，我们提出了一个面向 DR 系统的三阶段发展路线图，展示其从智能体式信息寻求到自主科学发现等广泛应用。基于该路线图，我们总结了常见 DR 系统的任务求解工作流中的关键组成部分。具体而言，我们介绍 DR 的四个基础组件： (i) 查询规划：将初始输入查询分解成一系列更简单的子查询 [250, 426]； (ii) 信息获取：按需调用外部检索、网页浏览或多种工具 [167, 221]； (iii) 记忆管理：通过受控更新或折叠机制保证与任务求解相关的上下文 [243]； (iv) 答案生成：输出具有明确来源标注的综合性结果，例如科学报告。这一范围区别于标准 RAG [89, 72] 技术，后者通常将检索视为启发式增强步骤，而不具备灵活的研究工作流或更广泛的行动空间。我们同时介绍如何优化 DR 系统以有效协调这些组件，并将现有方法划分为三类： (i) 工作流提示（workflow prompting）； (ii) 监督微调（SFT）； (iii) 端到端强化学习（RL）。本文的结构安排如下：第 2 节给出 DR 的明确定义及其边界；第 3 节介绍 DR 的四个关键组成部分；第 4 节介绍构建 DR 系统的技术细节；第 5 节总结重要的评测数据集与资源；第 6 节讨论未来方向中的挑战。综上，本综述的主要贡献如下： (i) 我们形式化了 DR 的三阶段路线图，并清晰地区分其与标准检索增强生成等相关技术的差异； (ii) 我们介绍了 DR 系统的四个关键组件，并为每一组件提供细粒度的子类目体系，以全面呈现研究循环； (iii) 我们总结了构建 DR 系统的详细优化方法，为工作流提示、监督微调与强化学习提供实践性洞见； (iv) 我们整合评测标准与开放挑战，旨在支持可比性报告并引导未来研究。

Deep Research 是什么？

Deep Research（DR）旨在赋予大型语言模型（LLMs）一个端到端的研究工作流，使其能够作为智能体，以最少的人类监督生成连贯且基于来源证据的报告。此类系统自动化整个研究循环，涵盖规划、证据获取、分析与报告撰写。在 DR 框架下，LLM 智能体负责规划查询、从异构来源（如网页、工具、本地文件）获取并过滤证据、维护和更新工作记忆，并综合生成具有可验证性且带有明确引用的回答。下面，我们正式介绍一个三阶段的发展路线图，用以刻画快速演进、以能力为导向的 DR 研究图景，并将其与传统 RAG 范式进行系统对比。

2.2 从三个阶段理解 Deep Research

我们将 DR 视为一种能力演进轨迹，而非价值层级。以下三个阶段描绘了系统可可靠执行的能力从“精确证据获取”到“可读分析整合”，再到“形成可辩护洞见”的逐步扩展。

Phase I：智能体式检索（Agentic Search）

第一阶段的系统主要擅长寻找正确的来源并提取答案，几乎不进行综合。这类系统通常会对用户查询进行重写或分解以提升召回率，检索并重排序候选文档，应用轻量过滤或压缩，并生成带有明确引用、简洁而准确的答案。核心强调点是：忠实于检索内容与可预测的运行效率。典型应用包括开放域问答 [227, 165]、多跳问答 [425, 344, 265] 以及其他信息寻求任务 [271, 444, 333, 70, 215]，这些任务的“真值”通常局限于少量可检索来源。评测重点包括： * 检索 recall@k * 答案精确匹配 * 引文正确性 * 端到端延迟

体现了该阶段对每 token 的准确性与操作效率的关注。

Phase II：综合式研究（Integrated Research）

第二阶段的系统跳脱单点事实提取，能够生成连贯、结构化的报告，整合来自多个异构来源的证据，并处理冲突与不确定性。研究循环在此阶段变得显式迭代：系统规划子问题、从多种原始内容（如 HTML [323]、表格 [44, 226]、图表 [208, 208]）检索与抽取关键证据，最终综合为叙事性报告。典型应用包括市场与竞争分析 [469, 347]、政策简报 [356]、满足复杂约束的行程规划 [331]，以及其他长程问答任务 [66, 434, 378, 49]。评测重点从短文本的表层匹配转向长文本质量，包括： * 细粒度事实性 [43, 216] * 引文可验证性 [310, 86] * 结构连贯性 [21] * 关键点覆盖度 [379]

Phase II 以适度增加的计算与复杂度换取显著提升的清晰度、覆盖度与决策支持能力。

Phase III：全栈式 AI 科学家（Full-stack AI Scientist）

第三阶段代表着 DR 的更广阔、更具野心的发展方向，旨在让智能体推进科学理解与创造，而不仅仅是信息整合。在此阶段，DR 智能体不仅要汇聚证据，还需能够： * 生成假设 [490] * 执行实验验证或消融研究 [223] * 批判已有论点 [498] * 提出新的观点 [386]

典型应用包括论文审稿 [506, 248, 498]、科学发现 [460, 292, 291] 与实验自动化 [362, 472]。评测重点包括： * 发现的创新性与洞见性 * 论证结构的连贯性 * 结论的可复现性（包括是否能够从引用来源或代码重新推导结果） * 不确定性校准与透明性

2.3 Deep Research 与 RAG 的对比

许多现实任务本质上是开放式的，需要批判性思维、基于事实的信息，以及可独立成文的回答。这些需求暴露出现有方法（包括传统 RAG 或简单扩大 LLM 参数规模）难以解决的核心局限。以下总结了三类关键挑战：

• 与数字世界的灵活交互

传统 RAG 工作流基于静态检索，依赖预先索引的语料库 [232, 225]。然而现实任务通常要求主动与动态环境交互，如搜索引擎、Web API、代码执行器等 [487, 223, 362]。 DR 系统扩展了这一范式，使 LLM 能够执行多步、工具增强的交互，从而获取最新信息、执行操作并在数字生态中验证假设。

• 自主工作流的长程规划

研究型任务通常包含多子任务协作 [378]、任务上下文管理 [411]，以及中间过程的迭代优化 [290]。 DR 通过闭环控制与多轮推理支持智能体实现自主规划、修正与优化，以达成长程目标。

• 面向开放任务的可靠语言接口

LLM 在开放式任务中容易产生幻觉与不一致性 [109, 471, 123, 13, 52]。 DR 系统通过可验证机制，将自然语言输出与真实证据对齐，从而构建更可靠的人类—智能体交互接口。

成为VIP会员查看完整内容

Agentic AI · 人工智能 · 智能体 ·

12 月 1 日

智能体化人工智能：架构、应用及未来发展方向的综合综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Agentic AI（智能体化人工智能）代表了人工智能领域的一场变革性转向。然而，由于其发展速度迅猛，当前学界对其概念的理解仍相对碎片化，常常将现代神经系统与过时的符号模型混为一谈——这一现象被称为“概念性回溯（conceptual retrofitting）”。本综述旨在打破这一混乱，通过提出一个全新的“双范式框架”，将智能体系统划分为两条截然不同的谱系：符号/经典范式（依赖算法规划与持久状态）与神经/生成式范式（依赖随机生成与提示驱动的编排）。

基于对 2018–2025 年间 90 篇研究的 PRISMA 系统综述方法，我们围绕该框架从三个维度展开全面分析： (1) 各范式的理论基础与架构原则； (2) 在医疗、金融与机器人等领域的具体实现，展示应用约束如何决定范式选择； (3) 不同范式特有的伦理与治理挑战，揭示风险模式与缓解策略的差异性。

我们的分析表明，范式选择具有战略性：符号系统在安全关键领域（如医疗）中占据主导，而神经系统则更适用于数据丰富、需要高度适应性的场景（如金融）。此外，我们识别出关键研究缺口，包括：符号系统在治理模型上的显著不足，以及构建混合神经–符号架构的迫切需求。

最终，本研究提出了一条战略路线图，指出智能体化 AI 的未来不在于某一范式的单独取胜，而在于两者的有机融合，以构建既具适应性又具可靠性的系统。此项工作为未来在智能体系统的研究、开发与政策制定方面提供了必备的概念工具包，以推动稳健且可信赖的混合智能系统的发展。

**关键词：**智能体化 AI · 人工智能 · 系统性综述 · 神经架构 · 符号 AI · 多智能体系统 · AI 治理 · 神经–符号 AI

Introduction（引言）

人工智能（AI）领域正经历一场范式转移：从构建被动的、任务特定的工具，转向工程化能够展现真正“能动性（agency）”的自主系统。现代智能体化 AI 系统（Wissuchek and Zschech 2025；Viswanathan et al. 2025）具备主动规划、上下文记忆、复杂工具使用，以及基于环境反馈自适应行为等能力。这类系统不再只是问题求解器，而是协作伙伴，能够动态感知复杂环境、推理抽象目标，并自主编排一系列行动——无论是独立运行还是作为复杂多智能体生态系统的一部分（Xie et al. 2024；Du et al. 2025）。为了建立清晰且精确的概念基础，我们首先区分该领域的核心概念。AI 智能体（或单智能体系统）指为完成某项目标而设计的自包含自治系统。它主要以独立方式运行，虽然可能与工具或 API 交互，但其能动性体现为自治性、主动性，以及能够独立完成任务的能力。例如，一个基于大型语言模型（LLM）的单智能体若被赋予任务“为一个新的移动应用撰写完整的项目提案”，它将会自主拆解任务、开展研究、撰写各部分内容，并完成最终文档的格式化。相比之下，智能体化 AI（Agentic AI）是一个更广泛的领域与架构范式，旨在构建能够展现能动性的系统。关键在于，它通常涉及多智能体系统（MAS）的编排，其中多个专门化智能体协同工作，通过协调与通信来解决单一智能体无法胜任的复杂问题。例如，一个用于执行相同任务的智能体化 AI 系统将部署一组专业智能体：由项目管理智能体负责将任务拆分为子目标，研究智能体收集市场数据，写作智能体撰写内容，而质量保障智能体对结果进行审查。他们之间的协作流程正是智能体化 AI 的典型体现。总结而言，可以将 AI 智能体视为一个功能强大的“单个工作者”，而智能体化 AI则代表一种利用能动性的原则，通常通过设计并管理整支智能体团队来实现。然而，这一快速演进也带来了概念上的碎片化与时代错置。先前研究指出的关键问题是概念性回溯（conceptual retrofitting）——即错误地使用经典符号框架（如 BDI 模型（Archibald et al. 2024）或 PPAR 感知–规划–行动–反思循环（Zeng et al. 2024；Erdogan et al. 2025））来描述基于大型语言模型（LLM）的现代系统（Plaat et al. 2025），而这些系统在根本上依赖随机生成与提示驱动的编排。这类做法模糊了 LLM 智能体的真实操作机制（Gabison and Xian 2025；Wang et al. 2024；Zhao et al. 2023；Chen et al. 2024），并人为制造了不同架构范式之间的虚假连续性。

已有多篇综述对智能体化 AI 的部分方面进行了探讨，但大多数研究要么范围有限，要么聚焦于单一技术层面、应用领域或高层概念，未能呈现该领域的全貌，也未有效回应概念性回溯的核心挑战。表 1 对这些综述的关注点、贡献与局限性进行了总结。为解决这些问题，本文首先建立清晰的历史语境（如图 1 所示），展示 AI 的演化历程可分为五个彼此重叠但相对独立的时代：

1. 符号 AI 时代（1950s–1980s）（Liang 2025）

该时代奠定了 AI 的最初愿景，以逻辑与显式知识为基础。MYCIN、DENDRAL 等专家系统（Swartout 1985）依赖手工构建的符号规则，体现了一种自上而下、演绎式的“纯符号范式”。

2. 机器学习（ML）时代（1980s–2010s）（Thomas and Gupta 2020；Nithya et al. 2023；Trigka and Dritsas 2025）

这一转变阶段摆脱了完全硬编码的逻辑，转向从数据中学习。尽管仍高度依赖人工设计特征，但统计学习模型（如 SVM、决策树）推动了分类、推荐等应用发展，为后续深度学习奠定基础。

3. 深度学习时代（2010s–至今）（Hatcher and Yu 2018；Alom et al. 2019；Dong et al. 2021；Khoei et al. 2023；Chhabra and Goyal 2023）

深度神经网络的普及使得系统能够自动学习层级表征，这一时代革新了视觉、语音与文本的感知能力。然而，这些模型仍主要作为强大的模式识别器，而非自治智能体。

4. 生成式 AI 时代（2014–至今）

GAN 的突破与 Transformer 架构（2017）推动了 LLM（如 GPT、BERT）的快速发展，使 AI 从感知迈向生成，能够合成连贯的文本、代码与媒体，为现代智能体化 AI 提供了核心底座——通用、强大的统计推理引擎。

5. 智能体化 AI 时代（2022–至今）

这一前沿阶段聚焦于利用 LLM 的生成能力实现行动与自治。此时代的典型系统包括 AutoGPT 等能够通过规划与工具使用来追求目标的智能体（Durante et al. 2024；Masterman et al. 2024；Piccialli et al. 2025），以及向多智能体系统演化的高级框架，如 CrewAI 与 AutoGen（Acharya et al. 2025；Viswanathan 2025；Plaat et al. 2025；Schneider 2025；Hosseini and Seilani 2025）。与符号范式中的算法推理不同，这一阶段的能动性源自生成式模型的随机编排机制。

这一历史脉络揭示了一个关键事实：智能体化 AI 并非符号 AI 的线性延伸，而是建立在完全不同的神经架构基础之上。为此，我们提出一个全新的概念框架（图 2），以明确区分智能体化 AI 的符号谱系与神经谱系，从而避免概念性错置，并提供统一的理论视角。

本文的四项核心贡献如下：

提出全新的双范式分类法

引入并应用一个新的分析框架（图 2），明确区分符号与神经谱系，避免概念性回溯并实现精准分类。 1. 架构澄清

阐明现代神经框架的运行原理，如提示链式推理与对话编排机制，而非符号式规划。 1. 实证映射

基于 PRISMA 方法系统性调研 90 篇文献，并使用双范式框架对其进行分类，分析研究趋势并基于正确标准评估其架构。 1. 治理锚定

将伦理、责任与对齐挑战嵌入到各范式的技术背景中，确保在正确的技术语境下讨论安全问题。

本文的结构如下：第 2 节提出理论框架与双范式分类法；第 3 节详述系统性方法；第 4 节基于范式分析呈现文献研究结果；第 5 节讨论启示、局限与未来方向；第 6 节总结主要贡献。

成为VIP会员查看完整内容

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自主武器系统（AWS）的发展——有时也带有“致命性”标签，缩写为LAWS——多年来一直处于激烈讨论之中。众多政治、学术或法律机构及行为体都在辩论这些技术带来的后果和风险，特别是其伦理、社会和政治影响，许多声音呼吁严格监管甚至全球禁止。尽管这些武器备受公众关注且被认为影响重大，但“AWS”这一术语具体指代哪些技术以及它们具备何种能力，却往往出人意料地不明确。AWS可以指无人机、航空母舰、无人空中/地面/海上载具、机器人及机器人士兵，或计算机病毒等网络武器。

这种不确定性之所以存在，尽管（或许正是因为）已有大量定义试图从功能上（例如“一旦激活，自主武器‘无需操作员进一步干预即可选择和攻击目标’”：美国国防部，2023年：第21页）或概念上（源自对自主系统、人工智能或机器学习的理论化）来明确该术语。定义仍为不同类型的技术留下了广阔空间，并且结合关于人工智能的更广泛讨论，也为未来发展的潜力和预测提供了可能。除了术语的模糊性，这些系统在何种意义上以及在多大程度上可被称为“自主”的本质也依然含糊不清。尽管自动化能力的发展无疑在推进（Scharre, 2018; Schwarz, 2018; Packer and Reeves, 2020），人类能动性和干预方式的程度不断降低，但完全超越人类控制、因此被许多人担忧的完全自主武器，在很大程度上仍是一种概念上的可能性，而非实际的军事现实。

这些模糊性导致了巨大的意义空白，而这些空白又往往被想象所填充——这是新技术，特别是人工智能的常见做法（Suchman, 2023）。潜在的现实可以扮演重要角色，因为它们是将专业知识传递到社会其他领域（包括新闻、政策制定、研究、教育和民主决策过程）的工具。因此，关于AWS功能及其后果的看法，受到军事、国家和技术未来想象的启发和塑造。这些想象包括地缘政治情景、伦理问题、国家政策或科幻小说。在安全与军事政策中，这些不同现实之间的相互联系甚至被用作一种方法论——例如，“红队演练”——这意味着应用对潜在未来的创造性虚构描述来为实际决策提供信息（The Red Team, 2021）。另一种应用是兵棋推演，这是一种预见未来军事场景的方法，其起源至少可追溯至19世纪，但已适应当代技术和媒体环境，包括虚拟现实和使用大语言模型的基于人工智能的模拟（Goecks and Waytowich, 2024）。

自主武器的前提，被视为占据着一个自身特有的混合空间，这促使我们探索随之而来的无数现实。本书的基本原理认为，只有承认实际技术发展与其相关的愿景和虚拟场景之间持续而复杂的动态互动，才能理解所讨论的这些现实。正是在这种不确定性——想象、可能性和虚构在此交织——的背景下，自主武器变得极具影响力。它们激发出情感、话语、鼓动、（反）行动、投资、竞争、政策或技术与军事蓝图。

关于自主武器主题的出版物通常侧重于其法律、政治或伦理影响（例如，Bhuta等人，2016；Krishnan，2016），这是评估这些技术的第一层级。也有一些著作讨论了其独特的表征（Graae and Maurer, 2021），以及我们见证和体验它们的方式（Bousquet, 2018; Richardson, 2024）。这些著作的基础也基于前面概述的不同现实。本书引入另一种分析自主武器现实的方法，提出一种第二层级的方法：例如，一个伦理问题不仅仅被框定为伦理问题本身，即沿着提出以下规范性问题的思路：“自动化杀人机器会引发哪些道德问题？” 在本书建议的方法中，伦理问题反而被理解为一个促成因素，它有助于在大众文化、政治、新闻或研究中构建、传播和维持对致命性AWS的特定理解。简言之，伦理话语共同创造了其对象的现实。因此，本书所采取的视角将AWS的不同现实置于前台，进而旨在为现有的辩论揭示其（常常是隐含的）基本假设。

本书这篇引言性章节首先勾勒了军事装备日益自动化的技术和政治发展进程。这些发展在理论上被阐述为既具构成性又具述行性，以涵盖全球范围内在理论和实践中对AWS的动态变化和不同理解。随后，本章就这些现实提出了六点思考，有助于界定和巩固AWS的动态含义，这些含义往往在公众、军事和监管领域受到极大关注。章节最后概述了全书的结构并简要总结了各章的贡献。

全书各部分及章节内容

全书结构分为三个独立部分，分别探讨自主武器的当前现实。每个部分都从特定的视角范式分析自主武器：1. 叙事与理论，2. 技术与物质性，以及 3. 政治与伦理。每个部分的开篇由一位艺术家及其对自主武器的构想引入。这种划分基于对跨越这些领域所阐发的不同意义的分析，这些意义构成了AWS的现实，并强有力地影响着如何感知和对待这项技术。

成为VIP会员查看完整内容

AI与军事 · 杀伤链 · 俄乌战争 ·

12 月 7 日

中文版《未来战争：杀伤链优势与俄乌战争启示》报告

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

俄罗斯乌克兰战争重塑了当代对战争如何进行与维持的理解。本文认为，现代战争的决定性特征不仅是杀伤链（即连接探测、决策与摧毁的序列）的压缩，更是其在持续干扰下的多样性与韧性。基于乌克兰在整合无人系统、数字化战场管理工具和人工智能方面的经验证据，本分析展示了技术加速如何能在带来短期战术优势的同时，暴露出长期的结构性脆弱。俄罗斯广泛使用的电子战、混合攻击和适应性对抗措施表明，杀伤链优势既充满争夺又十分脆弱。来自以色列、叙利亚和伊朗的对比案例表明，当耐力、后勤和工业产能仍具决定性时，自主性与速度并不能保证战略成功。对北约而言，研究结果强调威慑可信度将取决于由韧性指挥网络、可持续供应体系和政治凝聚力所支撑的分布式、持久性杀伤链架构。文章的结论是，决定未来战争节奏的将是耐力，而非速度。

在乌克兰，从探测目标到实施打击的时间已从数小时缩短至数秒。这种由无人机、商业航天系统和日益普及的人工智能所驱动的压缩，揭示了现代冲突的真正重心：对杀伤链优势的争夺。杀伤链被定义为从探测、决策到摧毁的端到端过程，它是所有现代作战的基础。在此框架下，胜利更少取决于火力，而更多取决于连接传感器与射手的链路的速度、韧性与多样性。

乌克兰利用无人系统和数字化战场管理工具来加速其远程杀伤链。俄罗斯则试图通过电子战、网络行动和对基础设施的混合攻击来破坏它们。双方都在不断调整以重获节奏并剥夺对手的优势。其结果是，这场冲突不仅展示了杀伤链压缩的战略重要性，也揭示了其局限性。包括能源、物流和通信网络在内的民用基础设施，已作为维持战争努力的平行杀伤链而出现。这种压缩与干扰的二元性已成为21世纪战争的一个决定性特征。

本文认为，乌克兰战争带来的决定性启示是，战争的未来将更少取决于杀伤链的压缩，而更多取决于维持这些系统的韧性与多样性。杀伤链优势将属于那些能够在军事和民事领域重建、适应并承受持续干扰的行为体。战术速度必须与结构韧性相辅相成。讨论将通过五个部分展开：（1）界定杀伤链理论的演变并阐释其背景；（2）分析乌克兰战场上的压缩、干扰与多样化；（3）评估人工智能赋能作战与自主性的局限；（4）比较乌克兰经验与其他冲突；（5）概述对北约及其伙伴的战略启示。

利害关系十分严峻。假设未能内化乌克兰的教训，那么，将在未来的冲突中处于结构性劣势——杀伤链更慢、更易受混合干扰的打击、更难以维持长期战斗。对手已经在试验人工智能赋能的目标识别、自主集群和对关键基础设施的破坏。如果不做出调整，就可能将主动权让给那些优先考虑节奏而非合法性、优先考虑胁迫而非正当性的行为体。乌克兰的启示并非简单地认为无人机至关重要或网络战表现不佳；而是认识到现代战争是跨越军事和民事领域的速度、韧性与适应能力的竞赛。秩序的稳定将取决于是否能在其对手定义交战规则之前，获得杀伤链优势。

杀伤链的演变与定义

“杀伤链”这一概念根植于冷战后期，当时美国试图通过技术和信息优势来抵消苏联的数量优势。20世纪70年代末，美国国防部制定了后来被称为“抵消战略”的计划，其核心是“突击破坏者”概念：即使用远程精确制导弹药和实时目标指示，在敌方装甲部队抵达前线之前将其摧毁。这是一项将信息优势转化为杀伤力的战略尝试，为后来成为网络中心战的理论奠定了基础。

到1991年海湾战争时，这些理念已发展为“震慑”学说，强调快速、精确打击对敌方战斗意志产生的心理和系统性效果。在后9/11时代，同样的原则在“发现、锁定、终结”的反恐行动框架下，以更小的规模得到应用，其杀伤链从探测到交战被压缩到几分钟之内，以摧毁恐怖主义网络。每一次演变都反映了相同的逻辑：技术加速将取代数量规模，而信息速度将带来决策优势。

美国空军在21世纪初正式将这一过程编码为“发现、锁定、跟踪、定位、交战、评估”循环，该循环至今仍是联合目标锁定理论的核心。随着时间的推移，这一概念已从战术领域扩展到战役和战略层面的关联。在战术层面，杀伤链的运作以秒或分钟计，例如在反恐突袭或无人机打击中。在战役层面，它们跨越数小时或数天，在整个战区协调多种火力与情报、监视和侦察资产。在战略层面，杀伤链的展开可能需要数周或数月，将国家情报、后勤和工业动员整合到战役规划中。

贯穿这些层面的一个统一见解是，杀伤链的有效性不仅取决于速度，还取决于连接性和韧性。乌克兰的经验代表了这一演变的最先进体现：一个实时、多领域的生态系统，其中商业、军事和民用资产持续互动以产生作战节奏。然而，这也暴露了该范式的局限性。当快速的决策周期未能产生战略成果时，冲突就会演变为消耗战，其中耐力、生产能力和适应性比速度更为重要。

乌克兰战场的压缩、干扰与多样化

乌克兰战争已成为21世纪数据最丰富、技术最活跃的冲突。西方精确制导系统、商业情报监视侦察资产和国内创新的整合，使基辅得以将其远程杀伤链压缩到前所未有的水平。兰德公司报告称，炮击的平均“传感器到射手”周期从2022年的30分钟缩短到2024年的不到1分钟，而对于第一人称视角无人机辅助的接战，甚至短至30秒。

这种压缩基于三项创新：（1）广泛使用第一人称视角无人机进行实时侦察和打击协调；（2）Delta、“克里帕瓦”、GIS Arta等数字化指挥控制工具的普及，整合了战场情报；（3）依赖商业卫星通信和影像，特别是通过“星链”和卡佩拉太空公司的卫星。乌克兰的“无人机军团”计划已培训超过1万名操作员，并计划到2025年中部署约5万架无人机，这标志着民用技术与军事实践前所未有的融合。

消耗仍然严重。皇家联合军种研究所估计，乌克兰每月损失8000至1万架无人机，主要归因于俄罗斯的电子战。然而，这种损失率被快速的本地制造、开源设计和众包维修中心所抵消。乌克兰模式表明，杀伤链优势既依赖于技术先进程度，也同样依赖于工业适应能力。

俄罗斯试图通过系统性干扰来抵消乌克兰的速度优势。其电子战部队（估计沿前线部署了60套主要系统）对GPS和无人机控制频率实施了干扰，降低了情报监视侦察数据流的效率，并瞄准了指挥控制节点。俄罗斯的适应措施相当显著，包括部署“山雀”和“极点-21”电子战系统、“海鹰-30”等人工智能辅助的情报监视侦察无人机，以及广泛使用“柳叶刀”巡飞弹。每一轮压缩都会引发一轮干扰的对抗循环，导致速度带来的回报递减。

近期研究表明，战争的未来不仅取决于压缩，还取决于多样化——即生成并保护多种模块化杀伤链的能力，这些杀伤链能够动态重构以应对攻击。美国和盟国防务界内的“马赛克战争”框架提出了仿照生物韧性建立的“异构、分布式杀伤链”模型。乌克兰的去中心化指挥模式已经反映了这一原则：分层的情报监视侦察网络、冗余的指挥控制节点和多平台协调形成了一个杀伤路径的网状结构。

混合行动与民用杀伤链

对杀伤链优势的争夺延伸至战场之外。俄罗斯的混合战略旨在削弱维持军事节奏的民用基础设施。能源电网、海底电缆、物流走廊和卫星网络都已成为目标。这些构成了“民用杀伤链”，其完整性决定了一个国家维持战争的能力。

在2023年至2025年间，欧洲记录了超过40起与俄罗斯代理势力有关的物理或网络破坏行为。诸如2025年挪威布雷芒厄尔大坝的网络入侵、与电缆干扰相关的瑞典哥得兰岛临时停电，以及对波罗的海海底基础设施的破坏等事件，都展示了一种连贯的破坏模式。此外，在伪造的自动识别系统信号下运作的俄罗斯油轮“影子船队”，模糊了商业与军事领域的界限，造成了持续的海上不稳定。这些行动反映出莫斯科长期以来的信念，即非军事措施可以达成战略效果。

这种方法反映了俄罗斯“主动防御”的条令概念，该概念认为早期破坏对手（军事和民用）系统具有决定性意义。针对欧洲关键基础设施的混合行动，旨在提高支持乌克兰的成本、削弱其凝聚力并侵蚀其韧性。由此产生的环境表明，威慑现在不仅需要保护提供火力的杀伤链，同样需要保护支撑能源、物流和信息生态系统的杀伤链。

人工智能、自主性与节奏合法性困境

人工智能已成为乌克兰指挥和目标锁定系统不可或缺的一部分。“德尔塔”平台利用机器学习整合传感器数据以确定目标优先级。“克罗帕瓦”系统实现火力协调自动化，减少决策延迟。人工智能驱动的图像识别协助处理无人机画面和卫星影像，从而实现更快、更明智的交战决策。

然而，人工智能的整合仍然是部分的。乌克兰的系统保留了人为监督，以确保遵守国际人道法。俄罗斯的方法则更为宽松，在其“柳叶刀”无人机中尝试自主目标锁定，并将人工智能辅助制导集成到其情报、监视与侦察网络中。这种差异反映了一个核心的战略分歧：威权国家倾向于将节奏置于合法性之上，而民主国家则必须在速度与合法性之间取得平衡。

对比经验强化了这种困境。在叙利亚，俄罗斯部队利用人工智能支持的情报、监视与侦察和巡飞弹对非正规部队实施精确打击，展现了高节奏但有限的识别区分能力。在以色列，“火力工厂”人工智能系统在加沙行动中实现了前所未有的打击协同，将杀伤链压缩至十分钟以内。相比之下，伊朗在乌克兰使用“沙希德-136”无人机则显示出相反的情况：低成本、低速、可消耗的系统，为持久力而非节奏进行了优化。这些案例共同表明，人工智能赋能的速度加速提供了战术优势，但不必然带来战略成功。

自主性也引入了人力因素。随着乌克兰面临日益严峻的人口结构限制，无人和半自主系统的扩展代表着一种战略适应，旨在保持战斗力，尽管人员可用性在下降。然而，这种替代只是局部的。可损耗自主系统的使用抵消了人力限制并延长了持久力，但并未消除对人员占领和防御地盘的需求。

战略限制与局限：消耗、升级与持久力

来自乌克兰及可比冲突的经验证据表明，战术速度不能保证战略成功。快速压缩能带来局部优势，但无法决定消耗战争的结果。兰德公司的分析指出，俄罗斯的后勤能力和生产深度使其能够承受损失，而乌克兰在节奏上取得的优势仅带来了微小的领土收益。正如约瑟夫·奈所指出的，网络和人工智能效应已被证明是传统持久力的“放大器，而非替代品”。

此外，升级风险限制了节奏优势可利用的程度。如果俄罗斯面临战场崩溃，使用战术核武器的可能性依然存在。北约缺乏对等的非战略性核选项，这使威慑复杂化并增加了升级风险。杀伤链加速通过缩短决策时间线，可能无意中压缩了升级阶梯，迫使战略困境在数分钟而非数小时内得到解决。

乌克兰战争也表明，高科技冲突可能比预期持续更久。通过精确打击和自动化取得决定性结果的预期被证明是错误的。相反，工业产能、适应性和社会韧性决定了持久力。对北约的启示在于，杀伤链优势必须与长期维持能力和政治凝聚力相结合。

比较可复制性与经验教训

虽然乌克兰提供了无与伦比的经验洞察，但其经验并非普遍适用。本土国防工业和安全边界使以色列得以整合人工智能与自动化；而乌克兰则缺乏这些条件。相比之下，叙利亚的环境使俄罗斯能够在低风险条件下进行试验，而无需面对对等级别的干扰。伊朗的无人机生产模式展示了可扩展性，但在面对先进电子战时则不具备生存能力。

乌克兰的独特优势在于其开源创新生态系统。民用技术专家、志愿者开发人员和公开来源情报社群实时协作以调整系统。“DeepStateMap”和“Molfar Intelligence”等平台模糊了情报与行动主义的界限，创造了一种社会性杀伤链整合形式。该模式反映了一种持续适应的国家能力——这是未来威慑战略的一个关键变量。

战略影响与对北约的政策建议

乌克兰战争揭示了西方防务态势中的结构性脆弱。现代冲突的决定性优势不在于平台数量，而在于杀伤链架构的完整性与适应性。对北约而言，适应这种环境需要围绕四个相互关联的重点重新调整其力量设计：速度、韧性、多样化和持续保障。

在监督下制度化人工智能赋能的速度优势

乌克兰的经验证实，人工智能可以加速指挥与控制流程。然而，缺乏监督的自动化会带来升级和错误风险。北约应建立一个操作性框架，使人工智能能够管理目标发现、数据融合和优先级排序，同时保留人类操作员的交战决策权。这种“人在回路之上”的结构既能保持速度，又不会削弱法律和政治问责制。为将此能力制度化，盟军转型司令部应领导一项关于人工智能赋能目标锁定的常设计划。联合演习应测试各国系统间的算法协调、互操作性和决策延迟。在此规模的整合需要共享数据标准、共同的测试制度以及从战术到战略层级的明确问责链。

加固与分布式指挥控制网络

乌克兰冲突的每个阶段都表明，电子战和网络干扰能够分割指挥网络。北约不能假设其系统在持续攻击下仍能保持协调一致。因此，盟国应寻求冗余、去中心化的指挥控制结构，使其在脱离上级梯队时仍能自主运行。这包括使用商业卫星、跨域路由协议和适用于降级环境的低带宽战场通信，构成预先配置的后备网络。作战条令应向任务式指挥原则演变，赋予下属单位在通信中断期间的决策权。分布式而非集中化，是对抗频谱拒止和精确打击的唯一可持续防御方式。

恢复工业产能与持续保障能力

消耗战的结果取决于工业速度。北约现有的国防工业基础缺乏灵活应变的能力。盟国应建立一个“集体生产框架”，明确关键制造依赖性，并在成员国间分配产能激增的责任。库存管理必须从库存盘点转向产能评估——即评估弹药、无人机和传感器在火力下的替换速度。这将需要一个由预先商定的生产共享协议和融资机制构成的和平时期网络。这不是回归冷战时期的动员，而是对威慑的重校准，以反映工业而非数量的竞争。

防御民用杀伤链

俄罗斯针对欧洲能源、物流和信息基础设施的混合战役表明，民用系统已成为战场的延伸。因此，北约的威慑框架必须将这些“民用杀伤链”视为战略资产。盟国应为成员国设定可执行的韧性基准（例如，电网冗余、海底电缆保护、以及针对网络物理攻击的预先安排恢复机制）。这些标准应通过北约-欧盟合作框架下的集体韧性审计进行监督。此领域的威慑将更少来自拒止，而更多来自展现出的快速重建能力。

在加速决策环境中管控升级

更快的决策周期伴随着相应的升级风险。如果俄罗斯面临战场崩溃，有限使用核武器仍是一个可能的选择。因此，北约的威慑规划必须纳入时间性升级控制，即确保压缩的杀伤链不会挤占政治决策窗口。这需要现代化核协商机制，使其能在高节奏下运作。决策模拟应测试升级阈值在信息降级和时间约束下如何保持。整合常规速度管理与核信号传递，对于防止无意的危机升级至关重要。

重建人力与政治韧性

技术并未取代人类意志的核心地位。乌克兰经验表明，战术系统的重要性低于组织的适应能力和领导层的持久耐力。相应地，北约应投资于人力资本，优先发展认知准备、分布式领导和政治凝聚力。公共传播策略应强调威慑依赖于集体韧性，而非瞬时精确。随时间推移维持民主意志，依然是北约相对于专制对手的比较优势。

结论

乌克兰战争生动展示了现代军队如何在压力下适应。它表明，杀伤链优势是必要的，但不足以确保胜利。技术加速提供了暂时优势；而战略成功取决于持久耐力与恢复能力。

乌克兰的战地创新展示了当商业、军事和民用系统整合时，适应性强的民主国家所能取得的成就。然而，它也暴露了持久的制约：压缩的杀伤链放大了遭受干扰的成本，而韧性成为现代战争的限速因素。俄罗斯尽管遭遇战术挫折却仍能坚持，表明工业和社会耐力能够抵消技术不对称。

本文的核心论点是，杀伤链优势衡量的不是速度，而是系统韧性——即在遭受干扰后维持决策和打击能力的能力。未来的冲突将青睐那些能够维持多重、相互重叠的杀伤链（军事、工业、信息和社会）的行为体，使其能够利用敌方弱点并达成战略目标。胜利将不属于最快的网络，而属于最持久的系统。

对北约而言，这些观察构成了明确的战略要务：盟国必须设计能够承受持续压力的分布式、冗余、持久的杀伤链架构。人工智能将推动这场变革，但其成功同样取决于后勤、人力和政治凝聚力。北约的威慑可信度将不取决于其打击速度，而取决于其在遭受干扰后维持作战的能力。因此，乌克兰的核心教训是结构性的：二十一世纪的威慑将取决于整个杀伤链生态系统的韧性。北约的任务是在下一次冲突检验其韧性之前，将这种韧性制度化。

成为VIP会员查看完整内容

NeurIPS 2025 · 可解释人工智能 · 机制可解释性 ·

12 月 6 日

【NeurIPS2025教程】解释人工智能模型：可解释人工智能、数据中心人工智能与机制可解释性的方法与机遇

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

NeurIPS 是关于机器学习和计算神经科学的国际会议，宗旨是促进人工智能和机器学习研究进展的交流。NeurIPS 2025 会议将于12月2日至12月7日在圣地亚哥会议中心召开。

理解 AI 系统行为已成为确保安全性、可信性以及在各类应用中有效部署的关键。 为应对这一挑战，三个主要研究社区提出了不同的可解释性方法： * 可解释人工智能（Explainable AI） 聚焦于特征归因，旨在理解哪些输入特征驱动了模型决策； * 数据中心人工智能（Data-Centric AI） 强调数据归因，用于分析训练样本如何塑造模型行为； * 机制可解释性（Mechanistic Interpretability） 研究组件归因，旨在解释模型内部组件如何对输出作出贡献。

这三大方向的共同目标都是从不同维度更好地理解 AI 系统，它们之间的主要区别在于研究视角而非方法本身。本教程首先介绍基本概念与历史背景，阐述可解释性为何重要，以及自早期以来该领域是如何演进的。第一部分技术深度解析将涵盖事后解释方法、数据中心解释技术、机制可解释性方法，并通过一个统一框架展示这些方法共享的基本技术，如扰动、梯度与局部线性近似等。 第二部分技术深度解析则聚焦于内生可解释模型（inherently interpretable models），并在可解释性的语境下澄清推理型（chain-of-thought）大语言模型与自解释型 LLM 的概念，同时介绍构建内生可解释 LLM 的相关技术。我们还将展示可使这些方法易于实践者使用的开源工具。此外，我们强调了解释性研究中前景广阔的未来研究方向，以及其在更广泛的 AI 领域中所引发的趋势，包括模型编辑、模型操控（steering）与监管方面的应用。通过对算法、真实案例与实践指南的全面覆盖，参与者将不仅获得对最先进方法的深刻技术理解，还将掌握在实际 AI 应用中有效使用可解释性技术的实践技能。

成为VIP会员查看完整内容

智能体 · 记忆 ·

12 月 16 日

AI智能体时代中的记忆：形式、功能与动态综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

记忆已成为并将继续成为基于基础模型的智能体的核心能力。它支撑着长程推理、持续适应以及与复杂环境的有效交互。随着智能体记忆研究的快速扩张并吸引空前关注，该领域也日益呈现碎片化。当前统称为"智能体记忆"的研究工作，在动机、实现、假设和评估方案上往往存在巨大差异，而定义松散的记忆术语的激增进一步模糊了概念上的清晰度。诸如长/短期记忆之类的传统分类法已被证明不足以捕捉当代智能体记忆系统的多样性和动态性。本综述旨在提供当前智能体记忆研究最新且全面的图景。我们首先清晰地界定智能体记忆的范围，并将其与大型语言模型记忆、检索增强生成和上下文工程等相关概念区分开来。然后，我们通过形式、功能和动态三个统一的视角来审视智能体记忆。 * 从形式视角，我们识别了智能体记忆的三种主要实现方式，即标记级记忆、参数化记忆和潜在记忆。 * 从功能视角，我们超越了粗略的时间分类，提出了一个更细粒度的分类法，区分了事实性记忆、经验性记忆和工作记忆。 * 从动态视角，我们分析了在智能体与环境交互的过程中，记忆如何随时间被形成、演化和检索。

为支持实证研究和实际开发，我们汇编了一份关于代表性基准测试和开源记忆框架的全面总结。在整合梳理之外，我们阐明了对于新兴研究前沿的前瞻性视角，包括面向自动化的记忆设计、强化学习与记忆系统的深度融合、多模态记忆、多智能体系统的共享记忆以及可信度问题。我们希望本综述不仅能作为现有工作的参考，更能作为一个概念基础，促使人们将记忆重新思考为设计未来智能体智能时的一等原语。

1 引言

过去两年，我们看到性能日益强大的大语言模型（LLM）已势不可挡地进化为强大的AI智能体（Matarazzo and Torlone, 2025; Minaee et al., 2025; Luo et al., 2025）。这些基于基础模型的智能体在多个领域——如深度研究（Xu and Peng, 2025; Zhang et al., 2025o）、软件工程（Wang et al., 2024i）和科学发现（Wei et al., 2025c）——取得了显著进展，持续推动着通往通用人工智能（AGI）的进程（Fang et al., 2025a; Durante et al., 2024）。尽管早期的"智能体"概念高度异构，但学界已逐渐达成共识：除了纯粹的大语言模型骨干外，一个智能体通常还需具备推理、规划、感知、记忆和使用工具等能力。其中一些能力，如推理和工具使用，已通过强化学习在很大程度上内化于模型参数之中（Wang et al., 2025l; Qu et al., 2025b），而另一些则仍然高度依赖于外部的智能体框架。这些组件共同作用，将大语言模型从静态的条件生成器转变为可学习的策略，使其能够与多样的外部环境交互并随时间自适应地演化（Zhang et al., 2025f）。在这些智能体的核心能力中，记忆尤为关键，它明确地促成了从静态大语言模型（其参数无法快速更新）到自适应智能体的转变，使其能够通过环境交互持续适应（Zhang et al., 2025r; Wu et al., 2025g）。从应用角度看，许多领域都要求智能体具备主动的记忆管理能力，而非短暂、易忘的行为：个性化聊天机器人（Chhikara et al., 2025; Li et al., 2025b）、推荐系统（Liu et al., 2025b）、社会模拟（Park et al., 2023; Yang et al., 2025）以及金融调查（Zhang et al., 2024）都依赖于智能体处理、存储和管理历史信息的能力。从发展角度看，AGI研究的一个核心目标是赋予智能体通过环境交互实现持续演化的能力（Hendrycks et al., 2025），而这根本上立足于智能体的记忆能力。 智能体记忆需要新的分类法 鉴于智能体记忆系统日益增长的重要性和学界关注，为当代智能体记忆研究提供一个更新的视角既恰逢其时，也十分必要。提出新分类法和综述的动机有两点：❶ 现有分类法的局限：尽管近期已有几篇综述对智能体记忆提供了宝贵且全面的概述（Zhang et al., 2025r; Wu et al., 2025g），但其分类体系是在一系列方法快速进展之前建立的，未能完全反映当前研究图景的广度和复杂性。例如，2025年出现的新方向，如从过往经验中提炼可复用工具的记忆框架（Qiu et al., 2025a,c; Zhao et al., 2025c），或基于记忆增强的测试时缩放方法（Zhang et al., 2025g; Suzgun et al., 2025），在早期的分类方案中尚未得到充分体现。❷ 概念碎片化：随着记忆相关研究的爆炸式增长，"记忆"这一概念本身正变得日益宽泛和碎片化。研究者们常常发现，标榜研究"智能体记忆"的论文在实现方式、目标和基本假设上差异巨大。各类术语（陈述性、情景性、语义性、参数化记忆等）的扩散进一步模糊了概念的清晰度，这凸显了建立一个能够统一这些新兴概念的、连贯的分类法的迫切需求。因此，本文旨在建立一个系统性的框架，以调和现有定义、衔接新兴趋势，并阐明智能体系统中记忆的基础原理。具体而言，本综述旨在回答以下关键问题： 关键问题

智能体记忆如何定义？它与大语言模型记忆、检索增强生成（RAG）和上下文工程等相关概念有何关联？ 1. 形式：智能体记忆可以采取哪些架构或表示形式？ 1. 功能：为何需要智能体记忆？它服务于哪些角色或目的？ 1. 动态性：智能体记忆如何随时间操作、适应和演化？ 1. 推动智能体记忆研究的前沿方向有哪些？

为解答问题❶，我们首先在第2节为基于大语言的智能体及智能体记忆系统提供形式化定义，并详细比较智能体记忆与大语言模型记忆、检索增强生成（RAG）和上下文工程等相关概念的异同。遵循"形式-功能-动态"三角框架，我们对智能体记忆进行了结构化概述。问题❷探讨记忆的架构形式，我们在第3节讨论并重点介绍了三种主流实现方式：标记级记忆、参数化记忆和潜在记忆。问题❸关注记忆的功能角色，在第4节中，我们区分了三种功能类型：事实性记忆（记录智能体与用户及环境交互中获得的知识）、经验性记忆（通过执行任务逐步增强智能体解决问题的能力）和工作记忆（在单个任务实例中管理工作区信息）。问题❹聚焦于智能体记忆的生命周期与运作动态，我们将按记忆形成、检索和演化的顺序进行阐述。在通过"形式-功能-动态"视角梳理现有研究后，我们进一步提出了对智能体记忆研究的观点与见解。为促进知识共享与未来发展，我们首先在第6节总结了关键基准测试和框架资源。在此基础上，我们通过第7节探讨数个新兴但尚未充分发展的研究前沿来解答问题❺，这些方向包括面向自动化的记忆设计、强化学习（RL）的融合、多模态记忆、多智能体系统的共享记忆以及可信度问题。 本综述的贡献 总结如下：(1) 我们从一个"形式-功能-动态"的视角，提出了一个最新且多维度的智能体记忆分类法，为理解该领域的当前发展提供了一个结构化的视角。(2) 我们深入探讨了不同记忆形式与功能目的的适用性及相互作用，为如何将各类记忆类型有效地与不同的智能体目标对齐提供了见解。(3) 我们探讨了智能体记忆中新兴且有前景的研究方向，从而勾勒出未来的发展机遇与推进路径。(4) 我们汇编了包括基准测试和开源框架在内的综合资源集，以支持研究人员和从业者进一步探索智能体记忆系统。 综述结构 本综述余下部分结构如下。第2节形式化定义了基于大语言的智能体与智能体记忆系统，并厘清了它们与相关概念的关系。第3、4、5节分别审视了智能体记忆的形式、功能和动态性。第6节总结了代表性的基准测试和框架资源。第7节讨论了新兴的研究前沿和未来方向。最后，我们在第8节总结关键见解，结束本综述。

成为VIP会员查看完整内容

AI与军事 · 反无人机系统 ·

12 月 3 日

《革新战术战场空间能力：反无人机系统》报告

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

此项工作的触发点源于开源信息中关于陆军于2025年10月9日就战术战场空间（TBS）内的反无人机系统（C-UAS）网格发布信息请求（RFI）的消息。本文试图解释与上述C-UAS网格相关的各种细节。

新兴的战术战场空间（TBS）概念

工作首先阐述了新兴的TBS概念。为此，参考了陆军领域一个非常常见的术语——战术作战区域（TBA）。该术语指的是战斗中发生敌对双方战术级交战的纵深区域。TBA是机械化部队之间机动与反机动、坦克对战以及地面部队为塑造前线战局所采取的战术行动的见证。

除了地面部队，TBA内还充斥著坦克、机械化步兵、炮兵系统、防空炮与导弹系统、战场监视与目标捕获网格、电子战（EW）与网络战资源、工兵、通信资源、网络管理单元等等。传统上且多年来，对TBA的认知一直是二维的，即存在于已接战的纵深地带的长宽范围内的区域。这一认知正逐渐显得不够充分和完整，因为它关乎陆军。更相关的概念是TBS，它包含了TBA及其正上方的空域。

战术作战区域（TBA）中的无人机作战

以往对TBA的二维认知之所以不完整，其原因在于TBA可视域内无人机与反无人机作战的出现，以及攻击直升机作为陆军在第三维度的延伸组成部分的融合。这一点将进一步阐述。有记录的首例蜂群无人机攻击发生于2018年1月5日，当时13架DIY无人机袭击了俄罗斯在叙利亚西部的两个资产，即赫迈米姆空军基地和塔尔图斯海军基地。自此以后，小型无人机作为在TBA可视域内执行空中威胁的有效空中威胁平台的出现便一发不可收拾。小型无人机改变了TBA内可视域空战的性质，这主要是因为这些空中威胁平台能够很大程度上避开传统防空雷达传感器的探测。这一点将进一步解释：大多数小型无人机的雷达截面积（RCS）很小。从根本上说，RCS（以平方米表示）是目标对于典型雷达系统可见度的度量。RCS越小，雷达探测到无人机的难度就越大。当前的小型无人机机群的RCS大约在0.01-0.4平方米之间（单旋翼 – 0.01-0.03平方米，四旋翼无人机 0.01-0.10平方米，六旋翼无人机 -0.04-0.32平方米）。将这些数值与典型攻击机的RCS值进行比较：F-16 – 5平方米，F-18 – 1平方米，SU-35 – 1-3平方米，F-35隐形战机 – .0015平方米）。影响是什么？与主战防空武器系统相关的传统传感器无法探测到小型无人机，因此无法引导雷达控制的枪炮和导弹对它们进行射击。需要什么来探测这些目标呢？需要大量全新的基于光电（EO）/射频（RF）/红外（IR）/声学技术的传感器，或能够探测无人机的特定雷达，即无人机探测雷达（DDR）。

成为VIP会员查看完整内容

NeurIPS 2025 · 对齐 · 大语言模型 ·

12 月 7 日

【NeurIPS2025教程】人类–AI 对齐：基础、方法、实践与挑战

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着通用人工智能系统的迅速发展，使这些技术与人类价值、伦理与社会目标保持对齐已成为一项紧迫任务。传统方法通常将对齐视为一种静态的、单向的过程，而本教程将其重新定位为一种动态的、双向的关系：人在其中与 AI 系统不断相互适应。我们提出了一个结构化的人类–AI 对齐框架，并系统性地探讨如何在整个对齐流程中增强人类能动性。本教程围绕三个核心领域展开：基础（AI 应与哪些价值对齐？）、方法（如何在系统各阶段赋予人类更大的对齐主导权？）、以及实践（AI 部署会带来哪些社会技术影响？）。课程最终将以一个跨学科专家小组讨论作为总结，四位领先学者将围绕新兴的挑战与未来研究方向展开对话。本教程旨在为参与者提供关键的概念基础、实用的方法论，以及对不断演进的对齐生态的批判性视角。包括幻灯片、代码资源与录制内容在内的全部材料都将在我们的教程网站上公开获取。

https://hai-alignment-course.github.io/tutorial/

1 描述（Description）

通用人工智能的快速发展带来了一个迫切需求：使这些系统与人类价值、伦理原则以及社会目标保持对齐。该挑战被称为 AI 对齐（AI alignment）[1]，它对于确保 AI 系统既能有效运作，又能在最小化风险的同时最大化社会收益具有关键意义。传统上，AI 对齐常被视为一种静态的、单向的过程，旨在引导 AI 系统实现期望结果并避免不良后果[2]。然而，这种单向视角已难以满足需求，因为 AI 系统正以动态且难以预测的方式与人类交互，形成反馈循环，影响着 AI 的行为与人类的反应[3]。这种不断演化的互动关系要求我们从根本上转向一种认识——即人类与 AI 之间关系的双向性与适应性[4]。尽管以往的对齐教程主要将 AI 对齐视为一种满足人类与机构预期的静态拟合过程，本教程则将对齐重新定义为人类与 AI 之间持续演化的互动过程。为阐明人类与 AI 在对齐中的动态角色，我们提出了一个人类–AI 对齐（Human-AI Alignment）概念框架（见图 1），并系统性地解释人类如何能够在对齐流程的各个阶段获得更强的作用能力。具体而言，本教程围绕三个核心问题展开探讨： 1. 基础（Foundations）——人类期望 AI 与哪些价值与规范对齐？ 1. 方法（Methods）——如何在构建对齐 AI 的过程中赋能人类？ 1. 实践（Practice）——AI 对人类与社会的社会技术影响是什么？

同时，为激发讨论并推动未来研究方向，本教程也将通过综合讨论的形式系统探讨第四部分： 4. 挑战（Challenges）——由三位主讲人与四位跨领域讨论嘉宾，从新兴议题与开放问题出发，对人类–AI 对齐的未来展开深入讨论。

目标（Goals）

本教程旨在通过以下四大目标为受众带来价值： 1. 全面概览（Comprehensive Overview）：提供一个系统化的人类–AI 对齐整体视角，突出人类在对齐流程中的持续参与。 1. 知识与理解（Knowledge and Understanding）：提供与人类价值、对齐技术以及 AI 社会影响相关的系统知识。 1. 实践技能（Practical Skills）：通过交互式代码笔记本与动手练习，使参与者能够掌握可操作的工具，并在多类 AI 系统中实现基本的对齐策略。 1. 促进讨论（Facilitate Discussion）：推动对未来挑战、开放问题与新兴机会的批判性讨论，为参与者未来的研究工作提供灵感。

重要性与影响（Importance and Impacts）

由于当前对齐框架难以充分应对现存的对齐挑战，对掌握人类–AI 对齐全景（包括技术基础与社会技术影响）的专业人才需求正不断上升。本教程旨在弥补这一缺口，使参与者能够在对齐研究、政策制定以及实际部署中发挥有意义的作用。通过兼顾概念框架、技术方法与批判性讨论，本教程确保参与者能够全面理解当前对齐研究的真实状态，而不会将对齐视为一个已经解决的问题。互动式专家讨论环节进一步培养了受众分析快速演进领域所需的批判性视角与判断能力，使其能够在未来推动人类–AI 对齐方向的深化与创新。

成为VIP会员查看完整内容

登陆后查看更多精品内容

热门VIP内容

开通专知VIP会员享更多权益服务

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

前沿人工智能趋势报告（Frontier AI Trends Report）

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

VIP会员

本周荟萃主题

区块链

区块链（Blockchain）是由节点参与的分布式数据库系统，它的特点是不可更改，不可伪造，也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念，完整比特币区块链的副本，记录了其代币（token）的每一笔交易。通过这些信息，我们可以找到每一个地址，在历史上任何一点所拥有的价值。

深度学习

机器学习的一个分支，它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

机器学习

“机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

推荐系统

推荐系统，是指根据用户的习惯、偏好或兴趣，从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同，这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大，商品个数和种类快速增长，顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题，个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台，以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。

卷积神经网络

在深度学习中，卷积神经网络（CNN或ConvNet）是一类深度神经网络，最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征，它们也被称为位移不变或空间不变的人工神经网络（SIANN）。它们在图像和视频识别，推荐系统，图像分类，医学图像分析，自然语言处理，和财务时间序列中都有应用。

计算机网络

计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备，通过通信线路连接起来，在网络操作系统及网络通信协议的管理和协调下，实现资源共享和信息传递的计算机系统。

命名实体识别

命名实体识别（NER）（也称为实体标识，实体组块和实体提取）是信息抽取的子任务，旨在将非结构化文本中提到的命名实体定位和分类为预定义类别，例如人员姓名、地名、机构名、专有名词等。

机器翻译

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

计算机视觉

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

微信扫码咨询专知VIP会员

Top