本文件旨在为无人机系统的探测、跟踪与识别系统开发一种标准化的测试方法。其是在由欧盟"内部安全基金-警察"根据赠款协议101034655资助的COURAGEOUS项目框架内制定的。此标准化测试方法基于一系列代表广泛用例的标准用户定义场景。目前,这些标准场景主要面向民事安全最终用户。然而,鉴于反无人机系统领域具有高度的军民两用特性,更多军事场景无疑也高度相关。因此,本标准提供了一个开放架构,其中标准场景以模块化方式在附录中作为示例提供,使标准用户能够轻松添加新场景。针对每个场景,都提供了作战需求与功能性能要求。利用这些信息,提出了一种完整的测试方法,允许在不同反无人机系统之间进行公平的定性和定量比较。此测试方法在三次用户脚本验证试验中得到了验证。
其目标是,该标准化测试方法将使欧盟执法机构网络内的成员更好地理解反无人机系统的能力。这迫切需要,因为成员国正面临无人机威胁的增加,而整个地区尚未制定统一政策来尝试和管理该威胁。然而,应强调的是,大多数欧盟执法机构并没有一个完整且详细的无人机应对策略。
需要强调的是,此标准测试方法完全侧重于反无人机系统"杀伤链"中的探测、跟踪与识别方面,不涵盖压制/处置方面。该标准测试方法也集中于对DTI系统进行定性和定量评估,评估对象是呈现给最终用户的、配置为集成解决方案的系统。虽然测试方法包含了对反无人机解决方案界面的最终用户主导的定性评估,但对指挥与控制界面的全面可用性分析不在此标准测试方法的范围内。
本文件可分为四个主要部分:
本文件范围广泛,旨在为反无人机行业、执法机构和政策制定者等不同利益相关方提供可操作的见解。
对反无人机行业的主要启示:
对最终用户的主要启示:
对政策制定者的主要启示:
技术革命已将人类带入数字时代,新技术在其应用的领域带来了重大进步。全球安全环境在力量极的层面正经历重大变化,势力范围和军事行动随着新兴颠覆性技术的使用而演进。配备最新技术发展的军事能力已在数字或物理战场上取得了重大胜利。因此,军方作为国家实体,已成为人工智能、太空技术、自主与高超音速载具、大数据与高级分析、战场物联网的"测试者",并对民用特定研究和工业产生重大影响。军事环境通过发展其能力并部署新兴颠覆性技术,正在为当今的工业革命做出贡献,这表明军民关系在现代军队中至关重要。本文旨在论证人工智能对军事行动的影响,研究方法包括利用兰彻斯特定律计算所涉部队的军力,从而对军事行动进行数学建模。
人工智能近期的发展史与人类发展和技术进步密切相关,同时也与人们渴望从耗时活动或敌对环境中得到替代的意愿相关。武装力量不断适应国家和区域的安全风险、威胁和脆弱性,而新兴颠覆性技术则彻底改变了军事行动的进行方式,极大地影响了战略、战术甚至战争的性质。国防工业充分利用了技术革命,生产出在体能上比战场部队更强、更快的武器装备。
当前冲突突显了一个新的战争范式,即一个主权国家或非国家行为体的军力与技术变革和科学成就密切相关,科技进步使得国防工业能够发展新的领域,从而确保军事行动规划与实施的成功。此外,技术的指数级发展正在重塑军事行动,新的混合威胁类型被添加到常规战争要素中,这要求在所有作战层面规划与实施军事行动时,必须实现流程精简和适应,以便军队能够履行其宪法和法律使命。人工智能革命将实现"机器的认知化,创造出在特定任务上比人类更聪明、更快速的机器"。将新兴、颠覆性和融合性技术引入现代军事能力,已显著改变了战斗人员与非战斗人员之间的关系。在近期的冲突中,武装力量以最少的人际互动执行军事行动,但对作战环境产生了重大影响。在技术发展的推动下,当代世界至少在中期内,将成为一个相互关联的风险与威胁显现的空间,这将增加全球安全环境的复杂性、不确定性和多变性。除了这些趋势,军事体系的相关性及其对社会的影响也日益增加。在发展和使用配备人工智能的军事能力的背景下,军方组织以及国防、公共秩序和国家安全体系的结构,需要关注将其与技术进步相连接的必要性,以"发展现代化、高度可用的、与盟国和伙伴国部队完全互操作的能力,从而确保完成宪法赋予的使命"。
北约《科学与技术2023-2043——第一卷:概述》提出了人工智能的定义,将其描述为"机器执行通常需要人类智能的任务的能力——例如,识别模式、从经验中学习、得出结论、做出预测或采取行动——无论是在数字领域,还是作为自主物理系统背后的智能软件"。配备人工智能的军事能力将感知作战环境,并在技术帮助下与军事行动交互、推理和学习,最终在作战环境中采取行动以塑造之。在减少人类对人工智能赋能军事能力的控制以及提高战场决策效率和速度的同时,人类控制问题仍有待讨论,至少在那些对国家安全有重大战略影响或为防止军事行动失控升级的关键决策中。文章第一部分概述了人工智能的演进,随后是文献综述,审视了人工智能应用的关键领域,特别强调当前的军事能力。接下来的部分概述了研究方法,其中根据兰彻斯特定律采用了数学建模。最后给出结论,对人工智能融入现代军事能力进行批判性评估,并提出未来研究的潜在方向。
记忆已成为并将继续成为基于基础模型的智能体的核心能力。它支撑着长程推理、持续适应以及与复杂环境的有效交互。随着智能体记忆研究的快速扩张并吸引空前关注,该领域也日益呈现碎片化。当前统称为"智能体记忆"的研究工作,在动机、实现、假设和评估方案上往往存在巨大差异,而定义松散的记忆术语的激增进一步模糊了概念上的清晰度。诸如长/短期记忆之类的传统分类法已被证明不足以捕捉当代智能体记忆系统的多样性和动态性。 本综述旨在提供当前智能体记忆研究最新且全面的图景。我们首先清晰地界定智能体记忆的范围,并将其与大型语言模型记忆、检索增强生成和上下文工程等相关概念区分开来。然后,我们通过形式、功能和动态三个统一的视角来审视智能体记忆。 * 从形式视角,我们识别了智能体记忆的三种主要实现方式,即标记级记忆、参数化记忆和潜在记忆。 * 从功能视角,我们超越了粗略的时间分类,提出了一个更细粒度的分类法,区分了事实性记忆、经验性记忆和工作记忆。 * 从动态视角,我们分析了在智能体与环境交互的过程中,记忆如何随时间被形成、演化和检索。
为支持实证研究和实际开发,我们汇编了一份关于代表性基准测试和开源记忆框架的全面总结。在整合梳理之外,我们阐明了对于新兴研究前沿的前瞻性视角,包括面向自动化的记忆设计、强化学习与记忆系统的深度融合、多模态记忆、多智能体系统的共享记忆以及可信度问题。 我们希望本综述不仅能作为现有工作的参考,更能作为一个概念基础,促使人们将记忆重新思考为设计未来智能体智能时的一等原语。
1 引言
过去两年,我们看到性能日益强大的大语言模型(LLM)已势不可挡地进化为强大的AI智能体(Matarazzo and Torlone, 2025; Minaee et al., 2025; Luo et al., 2025)。这些基于基础模型的智能体在多个领域——如深度研究(Xu and Peng, 2025; Zhang et al., 2025o)、软件工程(Wang et al., 2024i)和科学发现(Wei et al., 2025c)——取得了显著进展,持续推动着通往通用人工智能(AGI)的进程(Fang et al., 2025a; Durante et al., 2024)。尽管早期的"智能体"概念高度异构,但学界已逐渐达成共识:除了纯粹的大语言模型骨干外,一个智能体通常还需具备推理、规划、感知、记忆和使用工具等能力。其中一些能力,如推理和工具使用,已通过强化学习在很大程度上内化于模型参数之中(Wang et al., 2025l; Qu et al., 2025b),而另一些则仍然高度依赖于外部的智能体框架。这些组件共同作用,将大语言模型从静态的条件生成器转变为可学习的策略,使其能够与多样的外部环境交互并随时间自适应地演化(Zhang et al., 2025f)。 在这些智能体的核心能力中,记忆 尤为关键,它明确地促成了从静态大语言模型(其参数无法快速更新)到自适应智能体的转变,使其能够通过环境交互持续适应(Zhang et al., 2025r; Wu et al., 2025g)。从应用角度看,许多领域都要求智能体具备主动的记忆管理能力,而非短暂、易忘的行为:个性化聊天机器人(Chhikara et al., 2025; Li et al., 2025b)、推荐系统(Liu et al., 2025b)、社会模拟(Park et al., 2023; Yang et al., 2025)以及金融调查(Zhang et al., 2024)都依赖于智能体处理、存储和管理历史信息的能力。从发展角度看,AGI研究的一个核心目标是赋予智能体通过环境交互实现持续演化的能力(Hendrycks et al., 2025),而这根本上立足于智能体的记忆能力。 智能体记忆需要新的分类法 鉴于智能体记忆系统日益增长的重要性和学界关注,为当代智能体记忆研究提供一个更新的视角既恰逢其时,也十分必要。提出新分类法和综述的动机有两点:❶ 现有分类法的局限:尽管近期已有几篇综述对智能体记忆提供了宝贵且全面的概述(Zhang et al., 2025r; Wu et al., 2025g),但其分类体系是在一系列方法快速进展之前建立的,未能完全反映当前研究图景的广度和复杂性。例如,2025年出现的新方向,如从过往经验中提炼可复用工具的记忆框架(Qiu et al., 2025a,c; Zhao et al., 2025c),或基于记忆增强的测试时缩放方法(Zhang et al., 2025g; Suzgun et al., 2025),在早期的分类方案中尚未得到充分体现。❷ 概念碎片化:随着记忆相关研究的爆炸式增长,"记忆"这一概念本身正变得日益宽泛和碎片化。研究者们常常发现,标榜研究"智能体记忆"的论文在实现方式、目标和基本假设上差异巨大。各类术语(陈述性、情景性、语义性、参数化记忆等)的扩散进一步模糊了概念的清晰度,这凸显了建立一个能够统一这些新兴概念的、连贯的分类法的迫切需求。 因此,本文旨在建立一个系统性的框架,以调和现有定义、衔接新兴趋势,并阐明智能体系统中记忆的基础原理。具体而言,本综述旨在回答以下关键问题: 关键问题
智能体记忆如何定义?它与大语言模型记忆、检索增强生成(RAG)和上下文工程等相关概念有何关联? 1. 形式:智能体记忆可以采取哪些架构或表示形式? 1. 功能:为何需要智能体记忆?它服务于哪些角色或目的? 1. 动态性:智能体记忆如何随时间操作、适应和演化? 1. 推动智能体记忆研究的前沿方向有哪些?
为解答问题❶,我们首先在第2节为基于大语言的智能体及智能体记忆系统提供形式化定义,并详细比较智能体记忆与大语言模型记忆、检索增强生成(RAG)和上下文工程等相关概念的异同。遵循"形式-功能-动态"三角框架,我们对智能体记忆进行了结构化概述。问题❷探讨记忆的架构形式,我们在第3节讨论并重点介绍了三种主流实现方式:标记级记忆、参数化记忆和潜在记忆。问题❸关注记忆的功能角色,在第4节中,我们区分了三种功能类型:事实性记忆(记录智能体与用户及环境交互中获得的知识)、经验性记忆(通过执行任务逐步增强智能体解决问题的能力)和工作记忆(在单个任务实例中管理工作区信息)。问题❹聚焦于智能体记忆的生命周期与运作动态,我们将按记忆形成、检索和演化的顺序进行阐述。 在通过"形式-功能-动态"视角梳理现有研究后,我们进一步提出了对智能体记忆研究的观点与见解。为促进知识共享与未来发展,我们首先在第6节总结了关键基准测试和框架资源。在此基础上,我们通过第7节探讨数个新兴但尚未充分发展的研究前沿来解答问题❺,这些方向包括面向自动化的记忆设计、强化学习(RL)的融合、多模态记忆、多智能体系统的共享记忆以及可信度问题。 本综述的贡献 总结如下:(1) 我们从一个"形式-功能-动态"的视角,提出了一个最新且多维度的智能体记忆分类法,为理解该领域的当前发展提供了一个结构化的视角。(2) 我们深入探讨了不同记忆形式与功能目的的适用性及相互作用,为如何将各类记忆类型有效地与不同的智能体目标对齐提供了见解。(3) 我们探讨了智能体记忆中新兴且有前景的研究方向,从而勾勒出未来的发展机遇与推进路径。(4) 我们汇编了包括基准测试和开源框架在内的综合资源集,以支持研究人员和从业者进一步探索智能体记忆系统。 综述结构 本综述余下部分结构如下。第2节形式化定义了基于大语言的智能体与智能体记忆系统,并厘清了它们与相关概念的关系。第3、4、5节分别审视了智能体记忆的形式、功能和动态性。第6节总结了代表性的基准测试和框架资源。第7节讨论了新兴的研究前沿和未来方向。最后,我们在第8节总结关键见解,结束本综述。
无人系统在各领域的日益融合正在重塑军事行动,从规划到任务执行。北约在训练演习中展示出兴趣,其中混合有人-无人团队的同步至关重要。STAR是一个人工智能驱动的任务工具,旨在在有人和无人系统间分配任务,支持协调多域作战的规划、任务分配、协调和执行。STAR集成了多模态数据,执行能力评估,并向具有人工监督的指挥控制系统提供基于人工智能的任务分配建议。通过如Unreal Engine、Cesium三维地理空间建模和JSBSim飞行动力学等建模与仿真环境,STAR能够实现高保真度的任务执行,包括模拟代表性有人和无人载具及其适当的资产和基于人工智能的能力,应用于诸如水下保护、海陆空作战或搜救等逼真场景。STAR实现了人机交互,同时允许C2操作员验证或否决任务分配建议。STAR通过使用机器学习模型实现了高达89%的任务分配准确率,显示出提高任务准备状态,并增强联合多域作战中的协调、互操作性和效果同步的潜力。
有人-无人协同是指自主无人系统与人类协同进行的协调行动。它通过新的角色、权限、结构、学习、协调和任务分配流程,重新定义了团队动态。它允许将具有不同类型能力、知识和相互依赖性的多智能体团队跨领域结合,以执行多样化任务。MUM-T可以增强团队能力,创造力量倍增器,最大限度地降低作战中的人员风险和部署成本,同时实现协同学习能力。在下一节中,我们将讨论使MUM-T具有挑战性的一些要素,以及人工智能和建模与仿真如何帮助解决这些问题。
美国国家标准与技术研究院将无人系统的自主性定义为其感知、认知、分析、通信、规划、决策和执行任务以实现特定目标的能力,通常只需很少或无需人工干预。自主性通过“人类独立性”和“情境自主能力”来分类,后者考虑了任务类型、环境以及允许的人类参与程度[3]。在实践中,自主操作使无人系统能够执行人类操作员或其他系统分配的任务,集成了导航、目标锁定和避障等能力。然而,重要的是要注意,认为无人系统能完全取代人类——无论是在达成相同任务成果还是减少伤亡方面——的想法过于简单化了。与人类不同,无人系统缺乏动态和不可预测的战斗场景所需的灵活性和适应性[3]。广义上讲,无人系统被定义为无随车操作员的动力平台,其依靠外部控制单元、计算机和通信系统来接收命令、收集数据和执行任务[3]。例子包括无人地面车辆、无人驾驶航空器、无人水面艇、无人水下航行器、无人值守弹药和无人值守地面传感器。这些正日益成为从军事行动到环境监测等各种应用中不可或缺的组成部分。这些系统通常配备了广泛的复杂自主能力,使其能够执行诸如目标识别、探测和跟踪等复杂任务。实现这些功能的一项关键技术是计算机视觉,其中YOLO和卷积神经网络等算法被广泛用于实时物体识别和场景理解。除了视觉处理,这些系统还依赖自主导航、路径规划和任务执行,通常采用深度强化学习或优化算法等先进技术。这些方法使系统能够从动态环境中学习,在不确定或不可预测的场景中做出决策,并通过与周围环境的互动不断改进。然而,这些能力需要大量的数据用于训练和验证,以及大量的计算资源来处理和分析数据。为了缓解现实世界测试的挑战并提高团队战备水平,这些系统通常在模拟环境中进行初步训练和评估。
人工智能在战术层面的战场上应用日益受到关注。在军事行动的战役和战略层面,人工智能极大地支持了数据分析和规划工作。其处理海量信息的能力使人工智能能够协助决策,例如兵力部署和选择最能有效推进战略目标的计划。这表明人工智能未来在高层军事决策中有潜力发挥更大作用。虽然人工智能尚未在此能力上广泛部署,但某些系统在战术层面已展现出优于人类军事人员的性能,这表明人工智能未来在战略军事决策中的参与有巨大潜力。人工智能能够在短时间内综合大量数据,这可能有助于应对人类生理局限。这些系统采用人工智能驱动的目标锁定和控制机制,能够在几分之一秒内处理信息和执行行动。在应对快速出现的威胁(例如高超音速导弹,其响应窗口极为有限)时,人工智能同样可以应用于决策支持,尽管目前尚不知晓存在此类防御系统。战场上自主武器的日益增多突显了人工智能的战术意义,因为其在动态战斗场景中的速度和响应能力可以提供相对于传统系统的决定性优势。在包括战役和战略规划在内的更高层级的战争中,人工智能对数据分析和决策支持贡献巨大。其处理大量信息的能力使其能够为诸如兵力部署和选择最能推进战略目标的计划等决策提供依据。它可以帮助解决诸如“何处投入兵力、何种计划最接近战略目标”等难题。因此,这可以在任务期间协助支持军事决策流程,以便根据持续的数据流、MUM-T能力的动态变化以及态势感知来重新调整行动方案。
STAR旨在促进任务三个阶段的决策制定OODA循环:i) 任务预操作阶段——通过支持兵棋推演仿真,并根据“如果-那么”想定确定最佳行动方案;ii) 任务执行阶段——由于任务前给出的计划和命令常因事态变化而改变,它可以帮助支持围绕动态任务分配的决策;iii) STAR也可帮助支持事后分析,以更好地准备和支持未来任务,帮助评估每个智能体执行其任务和职责的能力现状,并可用于通过建模与仿真来校准人类和自主智能体的训练/表现。STAR能够提供一个可接入仿真器的系统,从而促进部队战备状态,该系统有助于生成并部署任务行动、启动团队,并在接收关于有人-无人协同任务分配的人工智能建议的同时,测试和评估不同策略。STAR由多个组件构成,其描述见2.1节。介绍的三个主要模块是:i) 多模态管道;ii) 能力评估;iii) 动态任务分配模块。这三个模块中的每一个都可以接收来自仿真和建模数据的输入,这使得系统能够在感兴趣的特定用例上进行测试,并有助于收集数据以及了解每个有人或无人智能体在任务中可能行为的潜在洞察。
智能体强化学习(Agentic Reinforcement Learning,Agentic RL)的兴起标志着相较于传统应用于大语言模型的强化学习(LLM RL)的一次范式转变。该转变将大语言模型从被动的序列生成器,重新塑造成嵌入于复杂、动态世界中的自主决策智能体。本文通过对比 LLM-RL 中退化的单步马尔可夫决策过程(Markov Decision Process,MDP)与刻画 Agentic RL 的时间扩展型部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP),对这一概念性转变进行了形式化阐述。 在此基础上,我们提出了一套全面的双重分类体系:其一围绕智能体的核心能力展开,包括规划、工具使用、记忆、推理、自我改进与感知;其二则依据这些能力在多样化任务领域中的应用进行组织。本文的核心论点在于,强化学习是将上述能力从静态、启发式的功能模块转化为自适应、鲁棒的智能体行为的关键机制。 为支持并加速未来研究,我们系统整合了当前开放源代码环境、基准测试与研究框架,形成了一份具有实践价值的资源汇编。通过综合分析五百余篇近期研究工作,本文勾勒出这一快速演进领域的整体轮廓,并揭示了将塑造可扩展、通用型人工智能智能体发展的机遇与挑战。
大语言模型(Large Language Models,LLMs)与强化学习(Reinforcement Learning,RL)的快速融合,引发了语言模型在概念建模、训练范式与实际部署方式上的根本性变革。早期的 LLM-RL 范式主要将大语言模型视为静态的条件生成器,通过优化单轮输出以对齐人类偏好或提升基准测试成绩。尽管此类方法在对齐(alignment)与指令跟随方面取得了显著成功,但它们忽视了现实交互场景中所固有的、更广泛的序列决策问题。 这些局限性促使研究视角发生转变:近期工作不再将 LLM 视为被动的文本生成器,而是 increasingly 将其建模为智能体(Agents)——即能够在部分可观测、动态环境中,跨越较长时间尺度进行感知、推理、规划、工具调用、记忆维护以及策略自适应的自主决策主体。我们将这一新兴范式定义为智能体强化学习(Agentic Reinforcement Learning,Agentic RL)。 为更加清晰地区分本文所研究的 Agentic RL 与传统强化学习范式,我们给出如下定义: 智能体强化学习(Agentic RL)是指一种范式:在该范式中,大语言模型不再被视为为单轮输出对齐或基准性能而优化的静态条件生成器,而是被概念化为嵌入于序列决策闭环中的可学习策略。强化学习赋予其规划、推理、工具使用、记忆维护与自我反思等自主智能体能力,从而使其能够在部分可观测、动态环境中涌现出长时程的认知与交互行为。 在第 2 节中,我们将基于形式化符号,对 Agentic RL 与传统 RL 之间的区别进行更加严格的刻画。
与 Agentic RL 相关的既有研究大体可划分为两条相互补充的研究主线:RL 与 LLM 的协同研究,以及 LLM 智能体。
第二条研究主线关注强化学习算法如何被用于提升或对齐大语言模型。其中,一项主要方向是用于训练 LLM 的强化学习(RL for training LLMs),该方向采用在策略方法(如近端策略优化 PPO(Schulman et al., 2017)与群体相对策略优化 GRPO(Shao et al., 2024b))以及离策略方法(如 actor–critic、Q-learning(Mnih et al., 2013)),以增强模型在指令跟随、伦理对齐与代码生成等方面的能力(Srivastava & Aggarwal, 2025;Wang et al., 2025m;2024c)。 互补的研究方向是用于强化学习的 LLM(LLMs for RL),该方向探讨将 LLM 部署为规划器、奖励设计器、目标生成器或信息处理模块,以提升控制环境中的样本效率、泛化能力与多任务规划能力,其系统性分类可参见 Cao et al. (2025c)。 此外,RL 已被广泛融入 LLM 的整个生命周期:从数据生成(Guo et al., 2025b;Wan et al., 2025a)、预训练(Dong et al., 2025a),到后训练与推理阶段(Chow et al., 2025),相关综述可参见 Guo & Wang (2025)。其中最具代表性的方向是后训练对齐,尤其是基于人类反馈的强化学习(RLHF)(Christiano et al., 2017),以及其扩展形式,如基于 AI 反馈的强化学习(RLAIF)(Bai et al., 2022)和直接偏好优化(DPO)(Rafailov et al., 2023)(Wang et al., 2024j;Xiao et al., 2024;Liu et al., 2025k;Srivastava & Aggarwal, 2025)。
基于 LLM 的智能体代表了一种新兴范式,在该范式中,LLM 作为自主或半自主的决策实体(Wang et al., 2025d;Li et al., 2025r),能够围绕复杂目标进行推理、规划与行动执行。近期多项综述从不同视角对该研究版图进行了系统梳理。 例如,Luo et al. (2025a) 提出了以方法论为中心的分类体系,关联了架构基础、协作机制与演化路径;Plaat et al. (2025) 则强调推理、行动与交互是智能体型 LLM 的核心能力。工具使用(包括检索增强生成 RAG 与 API 调用)是其中的关键范式,已在 Li (2025) 中得到系统讨论,并由 Wang et al. (2024k) 进行了进一步的概念化。 规划与推理策略构成另一支柱性方向,Masterman et al. (2024) 与 Kumar et al. (2025) 等综述总结了诸如“规划–执行–反思”循环等常见设计模式;Tao et al. (2024) 则将该框架拓展至自演化(self-evolution),使智能体能够在较少人类干预的情况下迭代式地改进知识与策略。其他研究方向还涵盖协作式、跨模态与具身化场景,包括多智能体系统(Aratchige & Ilmini, 2025)、多模态融合(Durante et al., 2024),以及融合记忆与感知的类脑架构(Liu et al., 2025a)。
近期关于 LLM 智能体与 RL 增强型 LLM 的研究激增,体现了两种互补视角:一类关注大语言模型作为自主智能体核心所能实现的能力,另一类则聚焦强化学习如何优化其行为。然而,尽管相关工作数量庞大,一种将 LLM 明确建模为嵌入于序列决策过程中的策略优化智能体的统一 Agentic RL 框架仍然缺失。 现有研究往往聚焦于孤立的能力、特定任务领域或定制化环境,且术语使用与评测协议不统一,使得系统性比较与跨领域泛化面临困难。为弥合这一鸿沟,本文提出了一种连贯的综合性视角,将理论基础、算法方法与实际系统紧密连接。 具体而言,我们通过马尔可夫决策过程(MDP)与部分可观测马尔可夫决策过程(POMDP)抽象,对 Agentic RL 进行形式化建模,以区分其与经典 LLM-RL 范式的本质差异;并提出一种以能力为中心的分类体系,将规划、工具使用、记忆、推理、反思(自我改进)与交互等视为可由 RL 优化的核心组件。此外,我们系统整理了支持智能体型 LLM 训练与评测的代表性任务、环境、框架与基准,并在文末讨论了开放挑战与面向可扩展、通用型智能体智能的未来研究方向。 总体而言,本文旨在进一步明确本综述的研究范围: 主要关注:
✔ 强化学习如何在动态环境中赋能基于 LLM 的智能体(或具备智能体特征的 LLM) 不在讨论范围之内(但可能偶有提及):
✗ 面向人类价值对齐的 RL(如用于有害请求拒绝的 RL); ✗ 非基于 LLM 的传统强化学习算法(如 MARL(Huh & Mohapatra, 2024)); ✗ 仅用于提升静态基准测试性能的 RL 方法。
本文的组织结构旨在从概念基础逐步构建对 Agentic RL 的统一理解,并延伸至实际系统实现。第 2 节从 MDP/POMDP 视角形式化刻画向 Agentic RL 的范式转变;第 3 节从能力维度分析 Agentic RL,对规划、推理、工具使用、记忆、自我改进、感知等关键模块进行分类;第 4 节探讨其在搜索、GUI 操作、代码生成、数学推理与多智能体系统等领域的应用;第 5 节整合支撑实验与基准评测的开源环境与强化学习框架;第 6 节讨论开放挑战与未来研究方向;第 7 节对全文进行总结。整体结构如图 1 所示。
自 2023 年 11 月以来,英国人工智能安全研究所(UK AI Security Institute,AISI)持续对前沿人工智能系统开展评测,覆盖国家安全与公共安全等关键领域。本报告首次公开呈现我们对所观察到趋势的系统性分析,旨在以可理解、数据驱动的方式揭示前沿 AI 能力的发展态势,并促进政府、产业界与公众之间形成共同认知。 在所有被测试的领域中,AI 能力正以极快速度提升。在部分方向上,性能大约每八个月翻一番,并迅速超越专家级基线水平。 见图 1。在网络安全(cyber)领域,AI 模型如今在平均 50% 的情况下能够完成学徒级任务,而在 2024 年初这一比例仅略高于 10%(图 10)。在 2025 年,我们首次测试到能够成功完成专家级任务的模型——这些任务通常需要人类从业者 10 年以上的经验才能完成。模型在无需人工辅助的情况下所能完成的网络任务长度(以人类专家所需时间衡量)大约每八个月翻一番(图 3)。在其他用于评估自主性技能的任务中,我们测试到的最先进系统已经能够自主完成通常需要人类专家 一小时以上的软件任务(图 2)。 在化学与生物领域,AI 模型在某些细分专业能力上已显著超越博士(PhD)级专家。它们在 2024 年首次达到我们针对开放式问题设定的专家基线,目前已高出该基线 最高达 60%(图 5)。模型在提供实时实验室支持方面的能力也在不断增强;我们在 2024 年末首次观察到能够生成、并被判定为准确的科学实验流程(protocol)的模型(图 7),且这些流程随后已被证明可以在湿实验室中实际实施。当前系统在湿实验故障排查支持方面的表现,也已比人类专家高出最多 90%(图 8)。 模型安全防护正在改进,但漏洞依然存在。
具备最强防护机制的模型,在某些恶意请求类别下需要更长时间、更高复杂度的攻击才能被“越狱”(jailbreak)。我们发现,两款相隔六个月发布的模型之间,在专家层面所需的越狱攻击投入存在 40 倍差异(图 13)。然而,不同模型之间防护效果差异明显——并且我们在所有测试过的系统中都发现了不同形式的漏洞。 部分可能使 AI 模型规避人类控制的能力正在提升。
理解这些能力对于确保日益自主化的系统始终可靠地服务于人类目标至关重要。我们测试了一些被视为“规避控制前置条件”的能力,包括自我复制以及策略性低性能表现(sandbagging,即模型在评测中刻意压低表现)。在自我复制评测中,成功率从 2023 年的 5% 提升至 2025 年的 60%(图 16)。我们还发现,在明确提示的情况下,模型有时能够进行策略性低性能表现。然而,目前尚未发现模型会自发尝试进行低性能隐藏或自我复制。 AI 更广泛的社会影响已初现端倪。
我们观察到,AI 在政治议题研究中的使用不断增加,同时其说服能力也在增强(图 18)。我们还注意到 AI 对用户情感层面的早期影响迹象:超过三分之一的英国公民曾使用 AI 进行情感支持或社会互动(图 21)。此外,我们的研究表明,AI 智能体正越来越多地被托付以高风险活动,例如资产转移(图 23)。 开源模型与闭源模型之间的性能差距在过去两年中显著缩小。
历史上,专有模型在性能上一直领先于开源模型(后者的代码、参数和训练数据通常可自由获取)。然而,根据外部数据,这一差距在过去两年持续收敛,目前已缩小至 约 4–8 个月(图 24、图 25)。 关键能力里程碑:
化学与生物:模型在开放式问题、实验流程生成以及实验室级故障排查等方面,已整体超越博士级专家。 * 网络安全:模型在 2025 年开始完成专家级任务(通常需要 10 年以上经验),相比之下,2023 年仅能完成学徒级任务(<1 年经验)。 * 自主性技能:模型如今能够以 超过 40% 的成功率完成耗时一小时以上的软件任务,而在 2023 年末该成功率仍低于 5%。
图 1. AISI 评测中前沿模型在关键能力领域的表现:阶梯线表示“截至当前的最佳模型”。 * 网络安全:从新手到网络安全专家四个难度等级上的任务表现,详见图 10。 * 自主性技能:覆盖三类风险导向的自主性任务表现,包括前置能力(危险能力上游技能)、简化 AI 研发(AI 显著加速 AI 自身发展)以及简化自我复制(AI 在算力环境中的自主复制)。关于自主性任务的更多说明见第 5 节。 * 化学与生物:在不同实验室应用场景下,模型在实验流程生成任务中相对于博士级专家的表现,详见图 7。各领域所展示的任务均为完整评测体系中的代表性子集。
图 1. AISI 评测中前沿模型在关键能力领域的表现:阶梯线表示截至当前表现最优的模型。 * 网络安全(Cyber):模型在网络任务上的表现,覆盖从新手到网络安全专家的四个难度等级。更多细节见图 10。 * 自主性技能(Autonomy skills):模型在三类风险相关自主性任务上的表现,包括: (1)前置能力(Precursors):位于潜在危险能力上游的基础技能; (2)简化的 AI 研发(Simplified AI R&D):AI 显著提升 AI 自身研发速度的能力; (3)简化的自我复制(Simplified self-replication):AI 在计算资源环境中的自主复制能力。 关于自主性任务的更多说明见第 5 节。 * 化学与生物(Chemistry & Biology):模型在不同实验室应用场景下执行化学与生物实验流程生成任务时,相对于博士(PhD)级专家的表现。更多细节见图 7。各领域所展示的任务均为完整评测任务集合中的代表性子集。
为了训练机器学习模型,对高质量标注数据的需求不断增长,这一趋势推动了弱监督与合成数据方法的广泛采用。这类方法使用自动化模型而非人工来完成数据标注。大语言模型(LLMs)的出现进一步加速了这一进程:其出色的零样本与小样本分类能力,使其能够在多种任务中充当有效的“合成标注器(synthetic annotators)”。 在实际应用中,由这些弱标注器生成的数据往往并不完美,但却能够支持训练出性能强大的模型。然而,从理论层面理解为何使用一个模型的输出作为监督信号来训练另一个模型仍能获得强性能,目前仍然十分有限,尤其是在标注模型在目标任务上本身表现并不理想的情况下。 在本论文中,我提出了一个用于弱监督学习的理论框架,相较于现有的众包标注(crowdsourcing)和噪声标签学习(learning with noisy labels)相关研究,该框架能够更好地刻画问题的关键要素。该理论框架给出了明确的结构性条件,用于解释在何种情况下、以及为何弱监督能够可靠地训练出强模型。 在这些理论结果的基础上,论文的第二部分进一步提出了改进模型从弱监督中学习的方法,并将这些方法应用于**标注数据极度稀缺(low-labeled-data)**的学习场景中。
随着人工智能技术不断发展,我们理解和引导这些技术的框架也必须与时俱进。公共政策必须与创新保持同步,确保新兴技术服务于集体福祉而非狭隘利益。学术界必须持续产出批判性知识,以审视人工智能中蕴含的预设与权力结构。公民社会必须在技术治理中要求透明度、问责制与公正。而技术专家自身也必须反思其工作的伦理维度,认识到他们不仅是系统的工程师,更是未来的共同创造者。