本美陆军训练条令为班组、小队及分队提供标准化直接火力杀伤链,通过通用标准化接战流程建立协同原则。本训练条令适用于装甲旅/斯特瑞克旅/步兵旅战斗队所有直射武器、武器系统及分队,供陆军全体人员、指挥官及参谋机构从单兵至旅级使用。
直接火力杀伤链旨在规范描述直射武器操作者、班组、乘组及排级单位的任务行动,使士兵与指挥官在最大化杀伤效能同时降低误伤与附带损伤。导图1展示直接火力杀伤链全流程。
直接火力杀伤链(下称"杀伤链")是持续进行的系统性互联任务、行动与功能,旨在对确认威胁快速有效施加适当战斗力以实现预期战术效果。
目的
本训练条令阐述直射武器杀伤链在士兵、指挥官、乘组、班排层级的应用,概述杀伤链各互联任务节点及其必须达成的具体结果(无论实现路径)。该流程代表直射武器接战标准程序,依赖操作者对部队敌我识别装备、单兵技能、交战规则、条令(含战术技术程序)、目标识别系统及战场态势认知系统的掌握。本手册仅在直接影响杀伤链时详述这些系统,协助指挥官决策实施致命直射火力打击,必要时标注相关补充出版物。
概览
杀伤链提供迭代化、标准化、系统化的目标接战方法。以下概述其基本功能环节:
1.武器状态
规范指挥官向下级通报战术任务中武器状态与交战规则的节点。武器状态是武器安全状态与基于敌情可能性的武器控制状态组合,交战规则由部队指挥官提供。二者协同使机动单元建立快速释放精确战斗力的战备等级,贯彻指挥官意图、防止误伤并减少附带损伤。
图1-1 杀伤链
2.观察
论述士兵或集体单元持续扫描责任区重叠扇面,在接触前目视发现潜在战术威胁的过程。观察员选择特定区域精细侦察,识别环境异常、潜在威胁阵地、接近路径及敌可利用地形。
3.侦测
启动目标获取流程(侦测-识别-定位),描述观察员在责任区发现潜在威胁证据(目标特征)的过程。士兵先敌目视接触能力使部队能率先释放战斗力(反制接触)。
4.识别
界定识别职责——判定未知接触性质(敌/我/中立/非战斗员/不明)的过程(JP 3-01)。识别工作包含对可辨识接触的质询判别,需结合情报、已知态势、敌我部署等信息判定非战斗员状态,是目标获取关键环节(JP 3-60)。
5.定位
涵盖确定已识别目标位置的方法,以引导武器系统或战斗力释放。观察员通过接触报告(或射手提交的目标捕获报告)向指挥官传递战术信息,定位触发单元光学/传感器/武器就绪状态调整,是目标获取核心环节(JP 3-60)。
6.决策
规范指挥官决策流程:在授权开火命令时判定战斗力运用方式、威胁等级分类、打击优先级及火力模式。所有决策基于杀伤链原则实施。
7.接战
概述直射火力交战实施规范,描述班/乘组/集体火力指挥要素结构(详见子条令TC 3-20.31-043)。火力指挥周期持续至达成预期效果,即有效破坏确认目标的杀伤链并消除其对友军威胁。
8.报告
交战完成后指挥官需向上级更新战术态势、战斗力运用效果及后续行动计划。本章规范数字/模拟/调频等报告方式及需提供的战术情报信息。
图学习已迅速发展成为机器学习与人工智能(AI)领域中的一个关键子方向,使得对社交网络、生物学、金融、交通运输和知识表示等领域中复杂关系数据的建模成为可能。图学习的发展始于早期的图论方法,并在图神经网络(GNNs)出现后获得了显著推动。在过去十年中,随着可扩展架构、动态图建模、多模态学习、生成式人工智能、可解释人工智能(XAI)以及负责任人工智能的发展,图学习的适用范围已经扩展到多个复杂的应用场景。
图学习之所以重要,是因为它能够建模复杂的非欧几里得关系,而这类关系通常难以被传统机器学习方法有效捕捉,从而更好地支持诸如药物发现、欺诈检测、推荐系统和科学推理等现实世界应用。然而,为了充分释放图学习的潜力,仍需解决一系列挑战,如可扩展性、泛化能力、异质性、可解释性以及可信性等问题。 本综述对图学习进行了全面介绍,重点关注以下几个关键维度:可扩展图学习、时序图学习、多模态图学习、生成式图学习、可解释图学习和负责任图学习。我们系统回顾了当前处理大规模图结构的高效技术、捕捉时序动态依赖关系的方法、异构数据模态的融合方式、新颖图样本的生成机制,以及提升可解释性以增强信任与透明度的研究进展。同时,我们还探讨了图学习模型在部署过程中所面临的伦理问题,如隐私保护与公平性,以促进其负责任地应用。
此外,我们还识别并讨论了一些新兴主题,特别是图学习与其他AI范式的融合趋势,并对未来发展方向提供了前瞻性见解。本综述旨在为希望深入了解图学习快速演进格局的研究者与实践者提供一份有价值的参考资料。
摘要——强化学习(Reinforcement Learning, RL)是解决序列决策问题的重要机器学习范式。近年来,得益于深度神经网络的快速发展,该领域取得了显著进展。然而,当前RL的成功依赖于大量训练数据和计算资源,且其跨任务泛化能力有限,制约了其在动态现实环境中的应用。随着持续学习(Continual Learning, CL)的兴起,持续强化学习(Continual Reinforcement Learning, CRL)通过使智能体持续学习、适应新任务并保留既有知识,成为解决上述局限性的重要研究方向。本文对CRL进行了系统梳理,围绕其核心概念、挑战和方法展开论述:首先,详细回顾现有研究,对其评估指标、任务设定、基准测试和场景配置进行归纳分析;其次,从知识存储/迁移视角提出新的CRL方法分类体系,将现有方法划分为四种类型;最后,剖析CRL的特有挑战,并为未来研究方向提供实践性见解。 关键词——持续强化学习,深度强化学习,持续学习,迁移学习
强化学习(Reinforcement Learning, RL)已成为机器学习中的一种强大范式,使智能体能够通过与环境的交互学习最优的决策策略 [1]。当强化学习与深度神经网络的表示学习能力相结合时,便产生了深度强化学习(Deep Reinforcement Learning, DRL),其在多个领域取得了显著的成功 [2]。DRL 展现了在解决高维复杂决策问题方面的巨大潜力,从精通国际象棋、日本将棋和围棋等棋类游戏 [3],到推动科学发现,如蛋白质结构预测 [4]、量子计算误差校正 [5],以及大型语言模型的训练 [6],[7]。此外,DRL 也被广泛应用于现实世界中的控制任务,如热电联产系统优化 [8]、托卡马克核聚变反应堆中等离子体配置控制 [9],以及实现安全的自动驾驶 [10]。 尽管 DRL 已取得诸多成就,但其当前的成功主要归因于在特定任务上学习固定策略的能力,通常需要大量的训练数据和计算资源 [11]。这为 DRL 在现实应用中的部署带来了重大挑战。具体来说,现有的 DRL 算法普遍缺乏跨任务高效迁移知识或适应新环境的能力。面对新任务时,这些算法通常需要从头开始学习,导致样本效率低下以及泛化能力差 [12]–[14]。 为应对上述挑战,研究人员开始探索如何使 RL 智能体避免灾难性遗忘并有效迁移知识,其最终目标是推动该领域向更具类人智能的方向发展。人类在解决新任务时,能够灵活地利用已有知识,同时不会显著遗忘已掌握的技能 [15]。受到这一能力的启发,持续学习(Continual Learning, CL),又称终身学习或增量学习,旨在构建能够适应新任务并保留过往知识的学习系统 [16]–[19]。CL 面临的核心挑战在于稳定性与可塑性的平衡——即在维持已学知识稳定性的同时,又具备足够的灵活性来适应新任务。其总体目标是构建能在整个生命周期内持续学习和适应的智能系统,而不是每次面对新任务时都从零开始。当前 CL 的研究主要聚焦于两个方面:灾难性遗忘的缓解以及知识迁移的实现。灾难性遗忘指的是学习新任务会导致模型覆盖并遗失先前已学任务的知识;而知识迁移则是指利用过往任务中积累的知识来提升新任务(甚至是已见任务)的学习效率与表现。成功解决这两个问题对于构建稳健的持续学习系统至关重要。 持续强化学习(Continual Reinforcement Learning, CRL),又称终身强化学习(Lifelong Reinforcement Learning, LRL),是 RL 与 CL 的交叉领域,旨在突破当前 RL 算法的多种局限,构建能够持续学习并适应一系列复杂任务的智能体 [20],[21]。图 1 展示了 CRL 的基本设置。与传统 DRL 主要聚焦于单一任务性能最优化不同,CRL 更强调在任务序列中保持并增强泛化能力。这种焦点的转变对于将 RL 智能体部署于动态、非平稳环境中尤为关键。 需要指出的是,“lifelong” 与 “continual” 两个术语在 RL 文献中常被交替使用,但不同研究中的定义与使用方式可能存在显著差异,从而引发混淆 [22]。一般而言,大多数 LRL 研究更强调对新任务的快速适应,而 CRL 研究更关注避免灾难性遗忘。本文采用更广义的 CRL 作为统一术语,呼应当前 CL 研究中同时兼顾这两个方面的趋势。 CRL 智能体需实现两个核心目标:(1)最小化对先前任务知识的遗忘;(2)利用已有经验高效学习新任务。达成这两个目标将有助于克服 DRL 当前的局限,推动 RL 技术向更广泛、更复杂的应用场景拓展。最终,CRL 旨在实现类人的终身学习能力,使其成为推动 RL 研究的重要方向。 目前,关于 CRL 的综述工作仍相对较少。部分综述文献 [18],[23] 对 CL 领域进行了全面回顾,包括监督学习与强化学习。值得注意的是,Khetarpal 等人 [21] 从非平稳 RL 的视角对 CRL 进行了综述,首先对通用 CRL 问题进行了定义,并通过数学刻画提出了不同 CRL 形式的分类体系,强调了非平稳性所涉及的两个关键属性。然而,该综述在 CRL 中的一些重要方面——如挑战、基准测试与场景设置等——缺乏详细的对比与讨论,而这些因素对于指导实际研究至关重要。此外,过去五年中 CRL 方法数量快速增长。鉴于此,本文旨在系统回顾近年来关于 CRL 的研究工作,重点提出一种新的 CRL 方法分类体系,并深入探讨知识在 CRL 中的存储与迁移机制。 本综述深入探讨了 CRL 这一不断发展的研究领域,旨在弥合传统 RL 与现实动态环境需求之间的差距。我们全面审视了 CRL 的基本概念、面临的挑战与关键方法,系统性地回顾了当前 CRL 的研究现状,并提出了一套将现有方法划分为不同类别的新分类体系。该结构化方法不仅清晰地描绘了 CRL 研究的整体图景,也突出了当前的研究趋势与未来的潜在方向。我们还从策略、经验、动态与奖励等多个角度审视方法间的联系,为优化 CRL 的学习效率与泛化能力提供了细致的理解。此外,我们也关注推动 CRL 边界的新兴研究领域,并探讨这些创新如何助力构建更复杂的人工智能系统。 本综述的主要贡献体现在以下几个方面: 1. 挑战分析:我们强调了 CRL 所面临的独特挑战,提出其需要在可塑性、稳定性与可扩展性三者之间实现平衡; 1. 场景设定:我们将 CRL 场景划分为终身适应、非平稳学习、任务增量学习与任务无关学习,为不同方法提供了统一的对比框架; 1. 方法分类:我们提出了一种基于知识存储与迁移方式的新 CRL 方法分类体系,涵盖策略导向、经验导向、动态导向与奖励导向方法,帮助读者结构性地理解 CRL 策略; 1. 方法综述:我们对现有 CRL 方法进行了最全面的文献回顾,包括开创性工作、最新发表的研究成果以及有前景的预印本; 1. 开放问题:我们讨论了 CRL 当前的开放问题与未来研究方向,如任务无关的 CRL、评估与基准建设、可解释知识建模以及大模型的集成使用。
表 I 展示了本文的结构安排。接下来的内容如下:第二节介绍 RL 与 CL 的基础背景,有助于理解 CRL 的核心理念;第三节概述 CRL 的研究范畴,包括定义、挑战、评价指标、任务设置、基准与场景分类;第四节详细介绍我们提出的 CRL 方法分类体系,并回顾现有方法,按知识类型划分为策略导向(第四节 B)、经验导向(第四节 C)、动态导向(第四节 D)与奖励导向(第四节 E)四类;第五节探讨 CRL 的开放问题与未来发展方向;第六节为本文的总结与展望。
几十年前,Mumford 曾写道,代数几何“似乎已经获得了一个声誉:它晦涩难懂、门槛极高、抽象无比,其拥护者似乎正密谋接管数学的其他所有分支。”如今,这场革命已全面到来,并从根本上改变了我们对许多数学领域的理解方式。本书为读者提供了这一变革性思想体系的坚实基础,通过非正式但严谨的讲解方式,帮助读者在掌握强大技术工具的同时建立直观理解。 本书以范畴思维和层的讨论为起点,逐步引出“几何空间”的概念,并以概型和簇为代表展开阐述,随后进一步讨论这些几何对象的具体性质。接下来的章节涵盖了维数与光滑性、向量丛及其自然推广、重要的上同调工具及其应用等主题。对于一些关键但进阶的内容,书中也通过带星号的部分进行了补充。 主要特色包括:
提供全面系统的入门指导,有望成为该领域的权威教材; * 包含丰富的练习,强调“做中学”的学习方式; * 几乎不设前置要求,从范畴论和层论一直发展到交换代数与上同调代数,构建学生所需的全部工具; * 采用以实例为驱动的方式,帮助建立扎实的数学直觉; * 既是面向研究生的自包含教材,也是研究人员的重要参考书籍。
摘要——近年来,视觉-语言预训练(Vision-Language Pretraining)作为一项融合视觉与文本模态优势的变革性技术,催生了强大的视觉-语言模型(VLMs)。依托于网络规模的预训练数据,这些模型展现出卓越的零样本推理能力。然而,在面对特定领域或专业任务时,其性能常常出现显著下降。为解决该问题,研究社区日益关注如何将 VLM 中蕴含的丰富知识迁移或泛化到多样的下游应用中。 本文旨在全面梳理 VLM 泛化的研究设定、方法体系、评测基准与实验结果。我们首先分析典型的 VLM 架构,并依据迁移模块的不同,将现有文献划分为基于 Prompt(提示)、基于参数、以及基于特征的方法三大类。随后,结合经典迁移学习(Transfer Learning, TL)设定,进一步总结与探讨各类方法的差异与特点,提出 VLM 时代下迁移学习的新解读。此外,本文还系统介绍了主流 VLM 泛化评测基准,并对各类方法在不同任务中的表现进行了详尽对比。
随着大规模通用预训练的不断演进,本文也探讨了视觉-语言模型与最新多模态大语言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之间的关联与差异。通过从“泛化”这一全新且实用的视角系统梳理视觉-语言研究的快速进展,本文有助于清晰描绘当前与未来多模态研究的整体格局。 关键词——视觉-语言模型,迁移学习,提示调优,鲁棒微调,领域泛化,测试时自适应,无监督领域适应,多模态大语言模型
1 引言
深度神经网络已在众多实际应用中取得显著成果。以视觉模型为例,从 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型规模与表示能力都得到了极大提升。然而,高效训练这些大规模模型往往需要大量标注数据与巨大的计算资源。为了解决这一问题,“基础模型”(foundation model)的概念应运而生——即在大规模数据集上预训练通用模型,以便将其知识迁移到各种下游任务中【4】。例如,预训练于 ImageNet【5】上的 ResNet 系列已成为图像分类【2】、目标识别【6】等视觉任务的重要基石。 自然语言处理领域也经历了类似的发展,从 Transformer【7】、BERT【8】到 GPT-2【9】与 GPT-3【10】,均在各自的单模态任务中取得卓越表现,但它们本质上缺乏对多模态信息的感知与推理能力。 如图 1 所示,对比式语言-图像预训练(contrastive language-image pretraining)范式的出现【11】彻底重塑了视觉-语言学习格局。Radford 等人提出的 CLIP【11】模型利用 4 亿网页爬取的图文对进行对比学习:将语义匹配的图文拉近、不匹配的拉远,从而实现了跨任务的强大零样本泛化能力,覆盖图像分类【11】、目标检测【12】、视频检索【13】等任务。后续研究通过扩大与去噪预训练数据集【14】【15】【16】、探索多样的预训练策略【17】【18】、引入多语言数据【19】【20】【21】,进一步增强了 VLM 的能力。 尽管 VLM 在通用任务上表现出色,但其预训练知识在特定领域的下游任务上泛化能力有限。若无合适的迁移方式,预训练的 VLM 往往难以处理分布外(OOD)数据,如遥感图像【22】或精细类别图像【23】【24】。传统的“预训练-微调”范式仍适用,但在 VLM 中直接微调可能破坏其对齐的视觉-语言表示,导致性能下降【25】【26】【27】。 因此,如何以尽可能低的计算与标注成本将 VLM 中的知识优雅地泛化至下游任务,已成为研究热点。考虑到 VLM 的多模态特性,研究者们尝试将单模态领域成熟的迁移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知识蒸馏【30】,扩展应用于 VLM【26】【31】【32】【33】。借助其庞大的通识知识,VLM 正逐步成为“任务无关型”求解器,在无监督领域适应(UDA)【34】【35】【36】、领域泛化(DG)【37】【38】【39】、测试时自适应(TTA)【40】【41】【42】等迁移学习场景中设立了新基线。 面对这种趋势,我们提出了关键问题:在 VLM 时代,知识迁移有何不同?
为此,本文对 VLM 的泛化能力展开系统文献综述。
研究动机与贡献
现有综述多聚焦于 VLM 的预训练阶段,如模型结构、预训练目标与数据集【43】【44】【45】。虽然部分工作提及了迁移学习【43】,但其覆盖面有限,尤其缺乏对不同迁移设定之间差异的探讨。本文是首个专注于 VLM 迁移与泛化能力 的系统综述。我们以主流的双分支架构(如 CLIP【11】)为基础,识别并归类迁移的关键模块,具体如下: 1. Prompt-based 方法:仅调节文本提示嵌入以控制模型行为【31】【32】【40】; 1. Parameter-based 方法:有策略地更新预训练参数【46】【47】【48】,或通过知识蒸馏引入新参数【33】【38】【39】; 1. Feature-based 方法:对提取到的特征进行后处理,如引入可学习模块【26】【35】或构建免训练缓存机制【27】【41】【49】。
我们结合迁移学习研究中的经典设定【4】【50】【51】,重新审视这些 VLM 方法,并分析其在不同迁移设定中的特性差异。随后,我们系统汇总了适用于各类迁移任务的主流基准数据集,并提供基于模型结构与方法设计的性能比较。
同时,本文还涵盖了 VLM 与多模态大语言模型(MLLM)之间的融合。近年来,大语言模型(LLM)取得突破性进展【52】【53】【54】【55】,将对齐语言的视觉编码器(如 CLIP)与 LLM 相连接,并以大规模多模态指令数据进行训练,构建出视觉-语言大模型(MLLM)。这些模型在视频理解、视觉问答、图像字幕、分割与识别等任务中展现出强大的泛化能力【18】【56】【57】【58】。 作为另一类通用视觉-语言模型,本文对 MLLM 的基本构建框架、模型类型、使用的预训练数据与目标,以及其在多任务中的表现进行全面总结,并呈现当前该领域的研究图谱(如图 3 所示)。
综述贡献总结如下:
系统回顾 VLM 泛化研究进展:涵盖无监督领域适应、领域泛化、小样本适应、测试时自适应等迁移学习任务;据我们所知,这是首个专注于 VLM 泛化的综述工作。 1. 提出三类关键迁移方法分类:Prompt-based、Parameter-based 与 Feature-based,并在各类迁移设定下深入分析其技术细节与适用场景。 1. 收集主流评测基准并对比方法性能:从泛化设定、模型结构与设计角度出发,提供公平、系统的性能评估。 1. 引入并分析 MLLM 的发展与代表模型:总结其结构、组成模块、泛化能力、训练数据与目标,为理解视觉-语言研究的前沿进展提供参考。 1. 提出当前挑战与未来方向:识别现阶段研究瓶颈,并展望可行的研究路径与潜力。
文章结构如下:
第 2 节介绍 VLM 相关基础知识及所涉及的迁移学习设定; * 第 3 节讨论 Prompt-based 方法,分为训练时提示(3.1)与测试时提示(3.2); * 第 4 节介绍 Parameter-based 方法,包括参数微调(4.1)与知识蒸馏(4.2); * 第 5 节探讨 Feature-based 方法,包括可学习适配器(5.1)与免训练缓存机制(5.2); * 第 6 节总结主流基准与方法性能评估; * 第 7 节介绍现代 LLM 如何增强与泛化 VLM,构成 MLLM; * 第 8 节总结当前进展并讨论未来的研究方向。
在每一章的开头,你会在右侧页边栏找到一个小的图表,旨在让你了解该场景发生时世界的情况。若要了解这些数字的含义的更详细解释,以及我们方法的更多更详细的信息,请访问ai-2027.com。 我们预测,未来十年的超级人工智能的影响将是巨大的,将超过工业革命的影响。OpenAI、谷歌DeepMind和Anthropic的首席执行官都预测,通用人工智能将在未来5年内到来。萨姆·奥特曼表示,OpenAI的目标是“真正意义上的超级智能”和“光辉的未来。”人们很容易将其视为只是炒作。这将是严重的错误——它不只是炒作。我们并不想自己炒作人工智能,但我们认为超级智能在本世纪末到来是极有可能的。 我们不会在所有事情上都正确——这大都是猜测。但在整个项目过程中,我们进行了大量的背景研究、专家访谈和趋势外推,以做出我们能做出的最明智的猜测。此外,我们的团队在预测方面有着优异的记录,尤其是在人工智能方面。首席作者DanielKokotajlo在4年前撰写了一个类似的情景,名为“2026年将是什么样子”,其时效性出奇地好,而EliLifland是一位顶尖的竞赛预测家。 如果我们正处于超级智能的边缘,社会远未做好准备。很少有人甚至试图阐述通过超级智能发展的任何可行路径。我们撰写《AI2027》就是为了填补这一空白,提供急需的具体细节。我们希望看到世界上有更多这样的工作,尤其是来自不同意我们观点的人们。我们希望通过这样做,引发关于我们走向何方以及如何驶向积极未来的广泛讨论。 我们通过反复问自己“接下来会发生什么”来撰写这个场景。我们从当前时代开始,撰写第一个时期(直到2025年中期),然后是下一个时期,直到达到结局。我们并没有试图达到任何特定的结局。然后我们放弃了它,重新开始,很多次,直到我们得到了一个我们认为可信的完成场景。在我们完成第一个结局——赛车结局之后,我们写了一个新的替代分支,因为我们还想描绘一种更充满希望的方式,在大致相同的前提条件下结束。
战场攻击目标的选择是最关键的决策之一。该决策问题被表述为武器目标分配(WTA)问题。既往研究中,动态规划、线性规划、元启发式及启发式方法均被用于求解此问题。然而,先前研究存在模型过度简化、计算负担过重、对突发事件适应性不足以及问题规模变化需重新计算等局限。为突破这些限制,本研究旨在运用强化学习与图神经网络解决WTA问题。所提方法通过映射真实决策框架"OODA循环"(观察-调整-决策-行动)实现高度实用性。在多环境实验中,通过与现有启发式及元启发式方法对比验证了该方法的有效性。该研究为传统上仅限人类专家的战术指挥控制领域引入突破性的智能决策方法论。
图1:兵棋模拟中随机性的概念图
本文介绍了我们在具身人工智能(Embodied AI)智能体方面的研究,这些智能体以视觉、虚拟或物理形式体现,从而能够更自然地与用户及其环境交互。这类智能体包括虚拟化身、可穿戴设备以及机器人,旨在具备感知、学习与行动的能力,使其在学习与交互方式上更接近人类,相比于非具身智能体更具自然性与适应性。 我们提出,世界模型(World Models)的构建是具身智能体实现推理与规划的核心,能够帮助智能体理解并预测其环境、把握用户意图与社会语境,从而提升其自主完成复杂任务的能力。世界建模涵盖了多模态感知的整合、基于推理的规划与控制、以及记忆机制,共同构建对物理世界的全面理解。除物理世界外,我们还提出应学习用户的心理世界模型(Mental World Model),以实现更优的人机协作。 虚拟具身智能体正在变革治疗与娱乐等领域,通过提供具情感理解能力的交互体验。可穿戴智能体(如集成于 AI 眼镜中)有望实现实时辅助与个性化体验,而机器人智能体则可应对劳动力短缺,在非结构化环境中执行任务。本文不仅探讨了具身智能体面临的技术挑战及我们的解决策略,还强调了在这些智能体逐步融入日常生活过程中对伦理问题的重视,尤其是关于隐私保护与拟人化的议题。 未来的研究方向包括:具身智能体的学习能力、多智能体协作与人机互动的提升、社会智能的增强,以及在设计过程中确保伦理实践。通过应对上述挑战,具身智能体有望革新人机交互方式,使其更直观、更能响应人类需求。本文综述了我们在具身智能体研究方面的现状与未来方向,旨在推动其潜力的全面释放,为人类生活带来深远影响。
1 引言
具身人工智能(Embodied AI)智能体是一类具备视觉、虚拟或物理形式的人工智能系统,使其能够与用户及其物理或数字环境进行学习与交互。这些具身 AI 系统必须具备在环境中进行有意义感知与行动的能力,因此也就要求它们对所处物理世界有深入理解。相比之下,仅存在于网络中的无形智能体并不具备具身性,而那些依靠遥控或预编程指令运行的机器人或无人机,也缺乏真正智能体所需的自主性与适应性。 可穿戴设备的独特之处在于:它们集成了能够感知物理世界并执行动作的 AI 系统,这种“感知—行动”的协同机制使得从用户视角出发,可穿戴智能体也具备具身性,模糊了人机边界。正如哲学家梅洛-庞蒂(Maurice Merleau-Ponty, 1945)所言:“我不是在我的身体里,我就是我的身体”,这强调了身体并非仅是思想的容器,而是存在本身不可分割的一部分。这一观点与具身智能体的理念密切相关,即智能体的身体与其环境共同构成其认知过程的重要组成。基于此,我们提出一个具身智能体框架,核心在于世界建模(World Modeling),使智能体能够以更复杂、更类人的方式推理与交互。 具身性在当前 AI 与机器人研究中主要有两个作用:(1)物理交互:使 AI 系统能够通过直接动作(如机器人智能体)或感知环境(如可穿戴智能体)与物理世界互动;(2)增强人机交互:研究表明,具身智能体能够提升用户的信任感(Winata et al., 2017; Fung et al., 2018; Shridhar et al., 2024)。此外,具身智能体还有一个日益受到关注的潜力方向:(3)类人的学习与发展方式——通过模拟人类的丰富感官体验,从而实现更直觉、类人的学习过程(Dupoux, 2018; Radosavovic et al., 2023)。 构建一个能自主学习、能够与人类和现实世界互动,并在个人与职业生活中提供帮助的 AI 系统,始终是人工智能发展的目标。从最初基于规则的聊天机器人,到 AI 客服,再到虚拟助手,每一代 AI 助手都具备更强的能力。线上 AI 智能体的出现是这一演化的最新阶段。与此同时,AI 的具身化也展现出多样形态,从具身对话代理(Cassell, 2001),到可穿戴设备(Alsuradi et al., 2024)、机器人(Mon-Williams et al., 2025),再到类人机器人(Cao, 2024)。每种具身形式面向不同的任务与应用场景,具备各自独特的能力需求,同时也共享一些核心能力。 不同于以往的 AI 助手,现代 AI 智能体更具自主性,能自主规划多步骤任务,决定所需的外部资源,并判断需协作的其他智能体,能够根据用户显式的请求或上下文隐含的信息理解用户需求。具身智能体还需为用户执行或协助用户执行实际动作,这对其推理与规划能力提出了更高要求。这种“感知世界并据此规划行动”的能力,正是世界建模的核心(LeCun, 2022)。 此外,智能体应能够与用户进行对话,以便在需求不明确或情境发生变化时澄清意图或确认信息。未来,智能体还需能与多个用户及其他智能体进行协作交互。这要求人机互动具备表达性、社会敏感性与情境适应性——换言之,智能体需要理解用户的“心理世界模型(mental world model)”。为支撑物理与心理世界的建模、推理与规划,具身智能体还需具备短期与长期记忆能力。 AI 助手演化为 AI 智能体,很大程度上得益于大语言模型(LLM)与视觉语言模型(VLM)的进展。开发者通过对 LLM 和 VLM 进行提示调控(prompting),构建了具身化的虚拟智能体,如虚拟化身(Cherakara et al., 2023)、智能眼镜、虚拟现实设备(Pan et al., 2024)以及机器人平台(Brohan et al., 2023;Tong et al., 2024)。这些 LLM 不仅在自然语言理解与生成方面表现优异,经过 RLHF 微调后,还具备了更强的指令遵循能力,甚至展现出零样本完成多任务的能力,无需专门为某一任务设计训练。伴随全球数百万用户的广泛使用,从最初的新奇感迅速转向对“能够辅助完成任何任务”的现实期待。 智能眼镜(如 Meta Glasses)使用户可以通过设备摄像头获取视觉输入、通过麦克风提供语音输入,并接入 AI 智能体(如 Meta Multimodal AI),尽管目前尚未能充分获取环境中的听觉线索。LLMs 与 VLMs 被用于实现感知、推理与规划功能,推动了情境感知 AI(Contextual AI)的发展(Erdogan et al., 2025)。VLMs 可通过指令调优实现逐步规划(Kim et al., 2024),而机器人也可在 LLM 提示下执行任务(Ahn et al., 2022)。 然而,生成式模型也存在一个核心缺陷,即其模型规模效率低下。它们擅长生成下一个 token 或像素,适用于创意任务,但往往包含大量冗余细节而缺失对推理与规划而言至关重要的信息。而推理与规划能力正是 AI 智能体的根本。因此,为提高具身 AI 的准确性与效率,我们提出采用一种基于多模态感知进行推理与行动预测的世界建模方法。 本文首先综述不同类型智能体及其应用场景,接着介绍我们为具身智能体提出的世界建模框架,其中包括感知机制、物理与心理世界建模、记忆系统、以及行动与控制策略。我们讨论了基于生成式模型的世界建模方法,同时也探讨了更高效且更可信的预测式世界模型(predictive world models)替代方案。接下来,我们将分别介绍三类具身智能体:(1)虚拟具身智能体;(2)可穿戴智能体;(3)机器人智能体,并在每一部分中列举现有评测基准与未来研究方向。最后,我们描绘了具身学习的未来愿景,以及由多个智能体协同合作的“智能体家族(Family of Agents)”。文章最后还探讨了两个关键伦理问题:隐私与安全,以及拟人化(Anthropomorphism)。
该条令为乘组、班组、小队及分队提供标准化直射接战流程,通过通用规范程序协调各单位行动以建立协同。该条令概念适用于装甲旅/斯特瑞克旅/步兵旅战斗队所有直射武器、武器系统及分队。
直射杀伤链旨在规范描述直射武器操作者、班组、乘组及排级单位的任务行动,使士兵与指挥官最大化杀伤效能同时降低误伤与附带损伤。火力指挥隶属杀伤链"接战"环节,描述班/乘组/集体单元火力指令的要素、术语及类型,构成对确认威胁实施直射的框架。本训练条令为车载武器平台、小分队及集体单位提供高度通用性。"领导者"或"车长"(VC)等术语指代有权下达执行指令的指挥岗位,必要时可增补具体职位说明。
当指挥员决策使用建制直射火力打击确认威胁后,班组/乘组/分队即进入杀伤链接战环节。该环节规范接战实施流程(称"火力指挥"),指挥员随即发布火力指令——标准化格式含九大要素(详见导图1),供班组/乘组消除或削弱威胁。
图:杀伤链
理解本训练条令需明确以下术语:
• 火力指挥:两名及以上士兵协同运用直射/间瞄火力消灭威胁时使用的指令、导语、短语、术语、修饰词、行动、反应、响应及毁伤评估,通称"火力指令"。
• 火力指令:班组/乘组实施直射的标准化九要素格式。
• 接战中目标:已遭直射打击但未达预期毁伤效果的威胁。
• 已压制目标:经直射打击达成预期毁伤效果的目标。
• 确认目标:经充分识别判定型号/变体/通称并判别为敌的目标。
• 判别:判定目标属性(友/敌/中立/非战斗员/不明)。
• 再接战目标:同一操作者/单位在持续接战中二次打击的已知目标。
• 接战:操作者/班组/乘组/分队对单个或多个目标实施直射以破坏威胁决策流程的行动,始于初始火力指令,含后续/补充指令,终于终止指令。
• 接战序列:多目标直射打击顺序,可在火力指挥中指定或遵循标准目标优先级经验法则。
多模态推理的最新进展在很大程度上得益于文本链式思维(Chain-of-Thought,CoT)范式的推动,该范式主张模型在语言中进行推理。然而,这种以文本为中心的方法将视觉仅视为静态的初始上下文,导致了丰富感知数据与离散符号思维之间的根本语义鸿沟。人类认知往往超越语言,将视觉作为一种动态的心理画板加以利用。而类似的演化趋势也正在人工智能领域显现,标志着一个范式的根本性转变:从“思考图像”的模型迈向真正能够“借图思考”的模型。 这一新兴范式的核心特征在于模型将视觉信息作为思维过程中间步骤加以利用,从而将视觉从被动输入转变为可操控的动态认知工作空间。在本综述中,我们沿着智能不断增强认知自主性的演进路径,对该趋势进行了梳理,这一演进历程可分为三个关键阶段:从外部工具探索、程序化操作,到内在想象。 为了系统化这一快速发展的研究领域,我们的综述提出了四项主要贡献:(1)确立“借图思考”(Thinking with Images)范式的基本原理及其三阶段框架;(2)全面回顾构成该发展路线图中各阶段核心方法的代表性工作;(3)分析评估基准和关键应用的现状与变革趋势;(4)指出当前面临的主要挑战,并展望未来值得关注的发展方向。通过这一结构化的综述,我们旨在为构建更强大、更贴近人类思维方式的多模态人工智能提供清晰的研究路线图。
大型多模态模型(Large Multimodal Models, LMMs)近年来标志着人工智能领域的一个关键转折点,展现出在理解和生成多模态内容方面的显著成果 [Team et al., 2023; Liu et al., 2024a; Wang et al., 2024a; Chen et al., 2025a]。这一进展从根本上重塑了 AI 跨越视觉感知与语言抽象之间认知鸿沟的能力。而促成这一“第一波”变革的核心推动力之一,便是语言中心化的推理机制,尤其是链式思维(Chain-of-Thought, CoT)范式的引入 [Wei et al., 2022; Kojima et al., 2022]。通过将复杂问题分解为一系列文本化的推理步骤,CoT 大幅提升了 LMM 在多种多模态任务上的表现,包括视觉问答 [Zhang et al., 2023a; He et al., 2025a; Shen et al., 2025]、视觉支撑的数学问题求解 [Lu et al., 2023] 和复杂叙事生成 [Wu et al., 2024a] 等。 在这一既定范式中,也即我们称之为“思考图像”(Thinking about Images)的方式中,视觉模态主要被用作静态的初始上下文:LMM 首先“看到”一张图像,将其编码为一组固定的特征向量,然后仅在语言域中开展推理。图像是前提,但语言是唯一的思维媒介。尽管该文本中心化方法已颇具成效,但它暴露了一个根本性局限:即视觉世界丰富、连续且常常模糊不清的本质,与语言的离散、符号结构之间存在语义鸿沟 [Li et al., 2022]。图像在初始阶段的一次性编码将其扁平化为静态表示,形成了一个关键的信息瓶颈。因此,当任务需要更深层、递归式视觉参与时,如复杂物理推理 [Balazadeh et al., 2024]、精确空间操作 [Gupta and Kembhavi, 2023],或交互环境中的长程规划 [Pahuja et al., 2025; Wang et al., 2025a],模型往往难以胜任。 如今,一场新的多模态推理变革正悄然兴起。模型正在从仅用文本“思考图像”,转向真正能够“借图思考”的新范式。这标志着视觉在认知过程中的角色发生根本转变:从被动、固定的输入,变为动态、可操控的认知工作空间。正如人类使用草图本进行思维一样,模型如今也开始被赋予能力,能够主动查询、修改,甚至生成新的视觉信息,作为推理过程中的中间步骤。这种“视觉链式思维”(visual chain of thought)的能力,不再是对文本 CoT 的简单扩展,而是一种朝向更整体、更类人认知形态的革命性飞跃 [Larkin and Simon, 1987]。我们认为,这一新兴范式——“借图思考”(Thinking with Images),代表了多模态 AI 的下一前沿。其核心原则在于:将视觉表征作为可操控、可验证的思维形式,使模型能够在认知过程中主动观察、操纵并以视觉信息为中介进行推理。 本综述是首个对这一新兴且快速发展的研究方向进行全面、系统梳理的工作。为了组织这一不断演化的研究图景,我们提出了一个概念性框架,描绘该范式在认知自主性不断增强过程中的三阶段演进路径。这三个阶段反映了模型实现视觉推理目标的不同机制(即“如何做”)以及推理动机(即“为何做”):从作为“指挥者”调度外部视觉工具、演进为“视觉程序员”以代码实现定制化视觉操作,最终成长为能够进行内在想象与模拟的“视觉思考者”。第二节将详细阐述这一三阶段演进路径。 随着各阶段方法的不断涌现,一个关键问题也随之而来,而本综述正旨在解答这一问题: 大型多模态模型如何通过认知自主性不断增强的三个阶段,演进至“借图思考”的新范式?该范式又由哪些核心方法、评估策略、应用场景和挑战构成?
本综述围绕该问题进行系统组织,并遵循图 1 所示的分类结构。我们将在第 2 节建立该范式的基础,随后在第 3、4、5 节分别探讨三个阶段所涉及的具体方法。在第 6 节,我们回顾相关评估基准和实现框架,第 7 节探讨该范式的关键应用,第 8 节则总结面临的挑战并展望未来方向。通过清晰的分类体系与前瞻性视角,我们希望不仅总结已有知识,也为构建更强大、更直观、真正多模态的 AI 激发未来研究灵感。
与已有综述的差异
早期的综述为理解 LMM 奠定了基础,但大多持有一个共同视角:视觉主要作为上下文输入,而语言仍是推理的主导载体。诸如 Yin et al. [2024]、Zhang et al. [2024c]、Wu et al. [2023a] 等面向通用 LMM 的综述,主要聚焦于架构、预训练语料和评估协议,对模型在图像编码后如何利用视觉信息的探讨则相对有限。Xie et al. [2024a] 将分析拓展至智能体场景,但仍以工具调用为中心,缺乏对内部视觉认知机制的关注。而在数学推理 [Yan et al., 2024]、幻觉检测 [Liu et al., 2024c]、评测基准 [Li et al., 2025d] 等任务专向综述中,虽涉及更具体任务细节,但仍延续了文本中心化的框架。近期已有部分工作开始讨论显式推理机制:如 Wang et al. [2025g] 回顾了多模态 CoT 提示设计,Li et al. [2025e] 探讨了“感知–推理–规划”流程;但即便如此,视觉模态仍然是被动的:模型通常只是对图像进行一次性描述或标注,随后继续在语言域中进行思考。 我们的立场
本综述聚焦于范式的转变:从“思考图像”到“借图思考”。我们首次系统性地分类和整理了促成这一演进的机制,其中图像从一个静态前提转变为一个动态、可操作的认知空间。我们按照认知自主性的提升轨迹来组织综述内容,阐明模型如何从(1)调度工具进行探索、到(2)以编程方式主动生成视觉分析,最终迈向(3)在封闭认知环中进行内在视觉想象。我们相信,这一发展将从根本上重新定义推理步骤的结构、可验证证据的标准,以及如何衡量真正的视觉智能。
当前及未来可用技术正在且将持续改变作战环境的本质,这一论断无可辩驳。然而更具挑战的是识别哪些技术能使冲突一方对技术弱势对手形成决定性优势——尤其是这些技术在多大程度上影响陆地作战固有的保守性。当前冲突中涌现的技术已呈现趋势,预示着未来"算法化"战场的可能形态。本文探讨未来二十年战场的可能图景,并阐释高强度冲突中地面部队在技术饱和战场运用的挑战。(注:原文编制过程中未使用人工智能内容生成工具)
未来军事行动的实施方式将与传统模式截然不同(Turaj & Bučka, 2020)。纳戈尔诺-卡拉巴赫(Petrosyan, 2023)、乌克兰(Hrnčiar & Kompan, 2023; Zahradníček et al., 2023)及加沙地带战场已显著展现创新技术引发的变革。这些冲突特征在于:大量使用旧代军事装备,辅以一定程度现代技术支撑,实质是源起数十年前的现役武器装备与现代战场元素的结合体(Gibradze et al., 2022)。因此称其为"下一代冲突"并不恰当。同时至少就乌克兰冲突而言,俄联邦武装力量的军事艺术(尤其冲突初期)呈现高度保守与传统主义特征:其大规模部署的营级战斗群在编成、装备及战术运用上常不符合现代战场需求(Grau & Bartles, 2022)。然而这些冲突的鲜明特点是:先进军民技术(如无人机系统/UAS)正加速融入指挥控制(C2)最底层级的趋势。该趋势由技术成熟度与可用性共同驱动。通过多平台交互或与空基/天基/地基传感器-效应器的体系化协同(Turaj, 2019),此类系统效能显著提升,其应用潜力预计将持续扩展。
上述考量促使以军事专家、指挥官、理论家、学者、研究人员及政界人士为代表的广泛"军事共同体"提出关键问题:这些技术是否具备"颠覆性"潜力?会否弱化传统作战要素的认知?未来能力如何演进?能力如何在地面战场具象化?军事艺术将因此发生何种变革?更广义而言——未来陆地战场将呈现何种形态?这些问题的答案对建设现代化军队具有不可否认的价值,使其能在可预见的未来作战环境中做好充分准备并有效行动。
当前关于军事未来的启发性观点与未来学预测层出不穷。保罗·沙尔(Paul Scharre, 2019)与罗伯特·拉蒂夫(Robert H. Latiff, 2017)的著作尤具价值。两位作者近乎一致指出:未来冲突将呈现人工智能(AI)赋能系统的自主特性;作战将主要在网络空间展开;陆地领域将由"机器人军队"主导——或由士兵远程操控,或具备高度自主性。他们同时警示这些技术应用的法律伦理问题,强调缺乏深思的技术部署可能引发长期毁灭性后果。
马尔钦·戈尔尼克维奇(Marcin Górnikiewicz, 2019)对21世纪后期冲突的推演极具启发性。其研究基于"人类将在短期内取得彻底改变传统武装冲突形式与方法的技术突破"这一前提,预言包括"武器"与"武装斗争"在内的诸多概念将被重新诠释。未来作战潜力将不再由其物理组件的量化参数"乘积"所绝对定义(Varecha, 2020a)。军事力量运用的重心将发生转移:虽仍聚焦对手弱点,但未来军队的首要目标既非作用于作战潜力的物理组件,亦非精神因素,而是摧毁敌作战潜力中恢复耗时极长或具"破坏性"的组分——这类破坏将导致敌方认知功能崩溃。随着人工智能演进,通过投射虚假视觉/听觉/触觉/味觉来针对性干预人脑活动机制的认知将深化,最终引发暂时性瘫痪、精神道德休克及现实感知能力丧失。基于深度个体文化密码与潜意识决策机制的高科技预测方法,将成为预判对手决策过程的关键要素。
这意味着下一代作战域很可能是涵盖人类感知、推理与决策全维度的认知空间(Malick et al., 2022)。然而此类活动仍处萌芽阶段,因当前尚缺实现上述未来效应的能力。本研究旨在"窥探"近未来,力图描绘20年内作战环境(尤重陆地领域)的演进轮廓。
鉴于安全环境演变态势,未来二十年仍将由历史上引发军事冲突的相同因素主导。冲突诱因或包括资源争夺、经济/意识形态/社会/宗教差异及影响力角逐(《全球趋势》, 2021)。本研究预期范围内,革命性变革不会源自新技术手段或其运用理念的根本转变。但可预见的是,现代及前瞻性装备的技术性能参数将根本性改变未来军事行动的整体认知与实施方式。
传感器升级、自主化、流程自动化与人工智能的融合将产生深远影响:技术先进的效应器将更精准、互联更紧密、响应更迅捷、射程更远且威力更强。这些因素也将重塑军事艺术——当前对作战环境的认知、对普适原则法规的传统"把握"、兵力运用方式,尤其是过时的"战术、技术与规程"(TTPs),将无法匹配技术先进军队的能力需求。
技术发展与军事艺术变革之间存在明确关联性——这种关联源于创新技术在军事力量结构中的实施。本研究聚焦未来20年最可能显著影响常规武装力量的技术趋势,这些趋势将在"算法化"战场上发挥关键作用。此类预测虽具高度抽象性且非直截了当,但对充分发展军事力量能力至关重要,使其不仅能应对当前威胁,更能应对未来挑战。本研究目标与贡献在于:勾勒未来二十年作战环境发展前景,并阐明技术饱和战场中地面部队运用的挑战。
基于此,作者团队聚焦两个核心问题:
研究无意分类描述制造商个体的"革命性"开发项目及技术参数对比,亦不考察技术解决方案或阐明运作原理。技术评估始终基于用户-决策者视角:这些技术将带来什么?其融入未来作战环境"战斗编成"后,如何影响未来战场陆地领域的形态?尤其关注在"算法化"环境中对地面部队行动的潜在影响。
研究采用实证-直觉方法论:
数据通过理论研究方法(分析与综合)进行检验,研究发现采用比较法表述,研究问题通过启发式预测方法验证。需特别说明:本文结论仅具预测性,未经严格实证检验。
当今作战环境的复杂性与动态性对军事力量及其多领域发展提出更高要求。关键挑战在于建立并维持战场态势感知能力——这对作战规划与实施至关重要。随着作战环境中事件规模、强度及动态性持续增长,该能力重要性将日益凸显;未来作战将作为"跨域行动"组成部分在多个作战域同步展开。鉴于当前环境特性,信息环境的发展对态势感知能力影响最为显著,尤其关乎当前与未来作战的态势认知(Fiebich, 2020)。
"洞悉战场而隐匿己身"自古便是战场指挥官的圭臬。自18世纪末战场规模超出单兵目视范围以来,战场可视化成为指挥核心需求——催生出观察员职能体系,通过观测结果为指挥官构建战场图景(Pong, 2022)。数字化既是当代战场要素,更是未来战场基石:它赋能指挥官运用博伊德OODA循环(观察、调整、决策、行动),辅助指挥官艺术化决策作战系统部署的时机、地点、目的及预期效果。
未来陆地战场将通过多元传感器系统实现情报监视侦察(ISR)能力,覆盖任意地形气候条件下的物理环境(Rolenec et al., 2022)。陆地领域的数字化态势图景将通过宽带高速加密传输,以高清视频流形式传递指挥、遥测与影像信息。这些视频流源自地面(及地下)、低空与高空多飞行高度、多视角传感器,传感器载体不再局限于传统侦察单位、无人系统(UxS)、机载平台与卫星。陆地战场每台设备乃至单兵都将成为传感器节点——涉及威胁动态、敌军部署、友军定位等全维度战场信息将实现实时聚合、分析评估与共享。通信设备微型化、多级数据数字化、面向网络的系统架构及流程自动化,共同压缩信息流时效,使**通用作战图(COP)**能实时覆盖各作战域至最低指挥层级。技术进步促使战场全域融合:除物理域外,"交战"将同步发生于信息域与认知域;增强现实与虚拟现实支撑的交互模式将成为标准作战手段。
信息主导权将前所未有地取决于冲突何方能更快采集数据、精准分析并通过AI辅助实现安全定向分发。AI将为自主装备自动生成行动选项(Koch, 2022),实现高度冗余性,使行动去中心化乃至完全独立于人力干预。经济型传感器与海量数据处理能力的结合,预示实时信息探测、处理与共享的革命性突破。该能力将成为敌军高价值目标(HVT),亦可能构成己方力量重心(COG)(Šlebir, 2022)。当互联互通被视为决定性优势,对手必将全力破坏、降级乃至瘫痪高度互联的信息依赖系统。提供互联能力与通用作战图的信息系统防护性与韧性将成为关键制胜因素(Kompan, 2020)。敌方行动导致的任何功能中断,都可能使作战系统从互联协同网络退化为碎片化网络——无法完整及时传输可溯数据,最终削弱通用作战图效能及作战系统达成预期杀伤/非杀伤效果的能力(《全球趋势》, 2021)。因此信息系统技术演进必然与其"韧性"发展深度融合。
未来战场焦点或将从火力转向基于指挥、控制、计算机、通信、网络、情报、监视与侦察(C5ISR)体系的信息力量。然而信息虽可提升武器系统效能与决策效率,其本身尚不足以迫使敌人屈从(至少在研究时限内如此)(Zůna, 2021)。
达成预期作战效果将依赖日趋先进的效应器。武器装备与弹药发展的核心趋势在于持续融合远程打击、高速突防、精确制导与实体摧毁能力的增强。现代武器系统的远程打击能力已预示:指挥所(Rolenec et al., 2023)、部队集结点与后勤设施等传统认为远离敌方常规火力而相对安全的区域,正面临日益严峻的威胁(Spišák, 2022)。
除射程提升外,武器系统(尤其间接火力)的毁伤精度(Varecha, 2020b)与破坏效能(Varecha & Majchút, 2019)正实现根本性突破。此趋势源于高精度传感-打击系统的整合与火控流程自动化——基于精准目标定位信息、先进弹药末制导能力,实现预定杀伤/非杀伤效果。未来战场先进弹药与游荡弹药因微型化与动态特性将更具破坏力且更难探测。电子技术正赋予弹药新能力:可编程空爆、近炸引信及应对新兴威胁的制导功能(Breaking Defense, 2023)。此类系统数量增长、效能提升与相对普及化,不仅威胁作战体系关键节点(指挥所/通信设施/高压武器系统/后勤设施等),更将危及空中领域全单元,包括小型战术单位乃至战场单兵。
探测跟踪高速飞行弹药与反制远程微型机动平台,始终是核心挑战。定向能武器(DEW)(尤指激光武器)的持续发展可能带来革命性反制方案。预计二十年内将实现陆地战场实战部署:其射速超越现有及未来机械系统,可瘫痪物理目标及信息/通信/指挥控制系统运行。核心优势在于即时打击效应、全气象条件适用性及多目标覆盖能力。地下等难以触及目标亦在打击范围内,关键价值体现为附带损伤最小化、目标锁定高速化以及兵力需求锐减。未来DEW将与各军兵种协同部署,天基平台亦将用于干扰敌方卫星通信通道。针对单兵的地面DEW应用(如驱散人群)研究亦在推进(Valouch, 2016)。
当前军事强国正计划为步兵配装激光武器。传统枪械设计潜力趋近极限,单兵弹道防护进步催生新型单兵武器需求(Kulhánek, 2023)。未来或现微型激光武器替代反器材步枪或与轻武器协同作战(Extance, 2015)。DEW系统能有效应对无人机群代表的分布式低成本威胁,相较传统武器将具备更高精度与威力,其**"无限弹药舱"**特性尤具战略价值(Lockheed Martin, 2023)。
制约因素在于:除成本外,高度电力依赖构成显著弊端——作战损毁供电系统即致瘫痪。陆战队列装受限于尺寸重量问题(需外骨骼或无人地面载具辅助)。国际激光武器使用公约亦限制其应用:禁止造成永久性视觉损伤或不成比例伤害的作战行为(Kulhánek, 2023)。
被动防护技术亦取得重大突破:压制红外特征信号的技术、车体后方投射影像的电子伪装系统、可完美折射光线使载具隐形的智能材料,代表未来伪装技术研发方向(Wang et al., 2013)。研究时限内,全频谱电磁辐射伪装技术将为作战单元及单兵提供高可信度防护。
自主性指"系统在编程设定参数内,基于获取知识与动态态势感知,无需外部干预即可按预期目标运作的能力"(《北约术语库》在线版)。在本研究语境中,外部干预特指无需大量人工输入(Rossiter, 2020)。尽管作战与保障平台系统的自主化与自动化水平持续提升(Kopuletý & Palasiewicz, 2018),人类仍将参与决策回路("人在回路"),但仅限必要最低程度。其角色在于直接实施战场指挥(下达指令或授权系统执行特定行动)与复杂作战管控(Górnikiewicz & Szczurek, 2018)。保留人类决策参与具有显著优势:相较人工智能系统,人脑仍是最高级的认知处理系统。AI系统往往脆弱且易在新情境中失误,而人类智能不仅更具鲁棒性,面对陌生动态环境时通常更灵活。尽管人类反应速度不及机器,但在应对新态势时表现更优(Foster, 2021)。
子流程自主化与自动化及人机交互减少带来多重效益:最重要的是系统能持续长时间运行,以更高精度与可靠性实现预期打击效果(如弹药自主制导),且不受压力恐惧导致的失误影响。但决策速度在此特指行动/反应执行时效。
当前及未来军事平台的全自主化具有根本重要性。典型案例是防御性反应系统自主探测消除威胁(如迫击炮弹、火箭弹、巡航导弹或反坦克火箭弹对作战基地或地面装备的攻击)。人类通过目标识别确认威胁并实施反制的传统决策回路在此失效——因反应时间过短。随着效应器与弹药技术发展趋势(特征为循环自动化、速度、杀伤力、精度、能力与模式提升,如游荡弹药与先进弹药)及陆地战场密度增加,反应时间将进一步压缩。另一例证是无人机系统(UAS):若操作员通信链路遭敌破坏,将无法授权对已识别目标实施打击(Foster, 2021)。
无人系统(UxS)的能力发展与自主性提升与人工智能(AI)进步紧密关联。当前AI已用于增强现有系统性能(如数据采集分析)。第二阶段AI将支持决策:指挥控制(C2)流程不变但显著加速,特定任务(尤其敌方行动方案分析生成比选)将实现全电子化自动处理。基于AI的解析工具(Matiz-Rojas & FernándezCamargo, 2023)与机器学习模型能结合多因素与不确定性,在更广背景下解读敌行为模式,从而更精准预测态势演进场景。军事决策将高度依赖AI——这不仅源于数据量指数级增长与处理时效要求(Hlavizna et al., 2023),更因优化作战力量运用的迫切需求。海量数据优先处理能力将成为关键里程碑。第三阶段AI将直接对抗复杂敌手系统,该能力是实现平台及全系统更高自主性的核心要素。
各类别无人机系统(UAS)正加速普及,其能力持续增强而成本不断降低。数千年来,特定时空的兵力集中始终是战场成败关键(Fuller, 1993)。该原则至今仍被北约奉为作战准则,但其在未来是否持续关键?无人机集群即为佐证:其通过复杂算法持续变换飞行轨迹的快速机动特性,可能导致防空系统软件无法处理目标模式而失效(Finlan, 2021)。微型无人机集群潜力不仅体现于数量优势,短期内它们将实现集群通信、自适应调整战术技术规程(TTPs),并随态势变化聚焦目标打击(Nohel et al., 2023)。这些系统将充当移动干扰器、移动传感器或无人系统集群,形成逻辑互联的电磁频谱"经典部队集结"假象,致使敌方徒劳干扰无实际兵力的虚假目标信号;而平台因高度自主性使传统反制手段(劫持控制权、干扰通信链路、定位追踪)失效。
无人系统(UxS)将在未来战场扮演不可替代角色:持续替代人类士兵以优化作战经济性与兵力效能。未来二十年各层级新型无人系统普及度将持续提升,能力发展聚焦多技术融合传感器(昼夜摄像机/热成像仪/声学/嗅觉/地震传感)、微型化、电磁特征抑制及协同能力增强。精密"感知规避"系统(含合作与非合作模式)的发展,将使微无人机集群能在最小间隔下密集部署战场(Višnai & Kandera, 2021),实现全地形(含建筑密集区)部署能力,在复杂多层建筑内部(Hrnčiar & Spilý, 2011)及有人驾驶空域同步运作。当前概念显示微型无人机系统将很快配装至每名美军单兵,其设计旨在增强远程威胁探测能力,确保可靠清除隐蔽目标(Pickrell, 2019)。
其核心任务持续覆盖情报监视侦察(ISR)、目标指示支援、高价值目标(HVT)猎杀、地面部队护卫与近距空中支援(CAS)、军用直升机护航(Blain, 2023)及电子战支援等传统领域,同时展现出物资/弹药/食品补给等持续保障、机动支援与反机动措施(布设雷场/开辟通路)、化生放核(CBRN)物质探测清除、爆炸物处置及人员装备洗消等新兴潜力领域。技术发展也将推动反无人机(C-UAS)防空能力显著进步,具备"猎杀"敌无人机与游荡弹药能力的无人机系统或将成为该领域突破方向。
从相对安全的远程位置对装备与系统实施半自主控制,现已成为现代战场固定要素。未来将加速发展徒步/车载部队与自主系统协同作战概念——即"有人-无人系统协同作战"(MUM-T)。该概念定义为"通过同步部署士兵、有人/无人空中地面载具、机器人及传感器,实现态势感知增强、杀伤效能提升与生存能力优化"(BAE Systems, 2023)。
未来陆地战场特征体现为作战无人系统(UxS)融入部队编成,例如作为伴随式陆空协同平台。基于广泛算法、机器学习与高速大数据处理,无人系统将逐步实现更高层级自主性:初始阶段由操作员远程操控;待相关概念、技术及操作挑战解决后,将过渡至部分自主执行任务;远期或可实现完全自主化。核心效益不仅在于提升作战系统火力,更在于通过减少有人单元作战部署,使其聚焦其他任务,从而拓展战术任务谱系与执行范围(《航空航天技术》, 2022)。同时无人系统在MUM-T中的普及将量化缩减有人单元部署规模,降低伤亡风险(Zahradníček et al., 2022)。
然MUM-T框架内无人系统战术运用受两大因素制约:一是物理环境微地形信息处理能力局限(Křišťálová et al., 2022; Mazal et al., 2020);二是目标精确识别(PID)缺失——因系统尚缺可媲美人脑精度的目标性质判定算法库。现有作战识别(CID)能力虽可辨识己方单位,仍无法区分战场人员属性(敌军/平民/其他角色)。
可预见时期内,杀伤/非杀伤效果终决权仍归属人类操作员或决策者。尽管如此,MUM-T或将成为陆地战场关键创新:通过分布式智能网络连接的智能模块化无人系统,将作为有人平台的力量倍增器。复杂未来作战环境必然要求无人系统与有人空/地平台协同编组作战。技术进步与AI发展将逐步提升军用无人平台自主性与冗余度,大幅减轻未来作战中MUM-T的后勤与认知负担(《航空航天技术》, 2022)。
自主/半自主平台独立性增强将使"人在环内"模式逐步淘汰,减少MUM-T所需操作员数量。通过降低对无人平台的直接操控强度,有人单元将获得战术、战役乃至战略层面的更强战场掌控力。当人类无需操作"非生命体"平台的导航与目标识别系统时,操作员可聚焦情报分发、作战编组协同等复杂任务。鉴于无人系统潜力,MUM-T编组内人机比例将随时间递减,但纯无人编队的创建部署仍存疑(《航空航天技术》, 2022)。
在未来军事行动中部署有人-无人系统协同作战(MUM-T)时,最大挑战在于将"人类士兵"整合至该体系——正如研究前文所述,与"机器"不同,人类会疲劳且必须在精神、心理和生理层面应对致命无人平台的动态变化与普及(Yeadon, 2021)。外骨骼系统正是增强部署人员体能的关键技术,其大规模应用将催生可称为"重型徒步步兵"的新兵种或专业部队(Mudie et al., 2021)。
外骨骼使用热潮预计将席卷高体能负荷军种,主要源于装备武器超重问题(Wu et al., 2021):
• 爆炸物处理(EOD)分队需携行排爆装备
• 步兵单位背负战斗载荷长途机动
因此外骨骼发展需聚焦穿戴舒适性与武器系统集成能力(含定向能武器)。
这些"战士战甲"将降低士兵代谢消耗:外骨骼承担机械工作(负重/行走),减少后勤需求并允许战场兵力更分散部署。同时集成先进通信系统与指挥控制(C2)平台,使未来战士能"数据赋能决策优化"(Gruss, 2022)。
未来外骨骼将通过增强防护提升战场生存力:在标准单兵防护外增设防破片层,重点保护要害部位以降低战损(Bengler et al., 2023)。关键技术突破在于未来二十年设计变革——从"额外负重"转型为"人机一体"作战复合体。该概念使士兵能在技术饱和战场作为高级资产(如无人系统)的控制节点,凭借增强火力、生存力与复杂态势感知能力,成为自主系统的战场"人形备份"。
人工智能(AI)已被北约列为"新兴颠覆性技术"(EDTs)——即能引发多领域突破的快速发展技术(NATO, 2023)。未来二十年AI将爆发式增长,深刻影响全域安全防御需求,并为陆地作战环境带来新挑战。AI结合高级数据分析与"大数据"应用,将根本性改变跨域作战的信息环境:
• 用于优化"影响力作战":迷惑对手/转移舆论支持/直接干预作战人员认知(Lucas, 2022)
• 提升现代武器系统杀伤效能:在"目标锁定"环节全面参与"决策-探测-投射-评估"(D3A)流程
• 通过优化资源分配与打击资产运用,显著削弱敌军作战潜力
自主系统、有人-无人协同及"重型徒步步兵"都将依赖AI提供的通用作战图(COP)。AI将逐步接管陆地作战环境中非必要人力的领域:军事水文气象、战场测绘、分析支援、后勤系统、关键基础设施防护(Jančo, 2022)及材料工程。第二类AI优势领域是人类响应过慢的任务:目标探测、电子战、网络防护、爆炸物侦排(Agarwala, 2023)。指挥控制与目标交战等领域未来二十年仍将保持"人机混合"模式——人类干预负责注入军事艺术,并规避道德法律困境(Morgan et al., 2023)。
AI重点发展方向已明确聚焦:指挥控制、信息管理、后勤保障与训练(Grand-Clément, 2023)。这些主题领域紧密关联,有理由预见AI将为地面部队提供压倒非AI敌军的决定性优势。
"当今军队无法对抗21世纪中叶技术先进的超现代化军队"的假设看似直观却非完全客观。毕竟军事史上不乏证伪案例:本世纪前二十年,全球技术最先进的军队在伊拉克与阿富汗平叛行动中仅能实施有限作战。但需明确——此类"挫败"根源并非单纯源于作战潜力不足。未来二十年最先进军队的能力必将剧变,其增长核心加速器在于创新技术整合,这些技术将在互联性、速度、杀伤力、自主性、可持续性等领域引发陆地战场显著变革。这些因素将根本性影响未来作战中地面部队的部署理念。未来作战环境特征体现为多域互联同步作战,行动协同增效需求始终显著。信息环境容量、吞吐量、速度、数据流冗余度及信息处理能力将成为决定性因素。军事力量运用的核心意图将是破坏敌方系统完整性与连通性,瘫痪其链路。
可预见陆地战场将由"混合战斗系统"主导,但人类仍居核心地位。未来二十年指挥控制(C2)作为核心作战功能仍不会被AI机器取代——人类扮演决策者角色,机器负责全域数据采集处理分析。无人系统(UxS)替代人类执行高危任务,各类平台由人类远程管理或(视自主化程度)至少实施遥控。尽管待控占的物理作战环境规模显著扩大,作战本质并未根本改变。但装备能力将变革,其运用方式与手段将拓展。从未来军队作战潜力物理组件视角看,远程杀伤性资产(如作战无人系统/集群、远程火力特别是火箭炮与身管火炮、先进弹药及游荡弹药)将至关重要。
效应器射程、速度、精度与杀伤力的持续提升,将影响高价值难替代平台的生存力及地面部队自身效能。精准地理定位、高精度实时真实战场态势感知、持续传感器互联与即时自动化效应器响应的结合,意味着近期军队可能不再需要(或无法遵循)传统认为必要的"集中原则"——即通过时间/空间/规模的集中达成目标。应对技术优势敌军火力威胁的潜在方案是深化分布式发展:即战场兵力分散化(含作战行动分散化)。由此可预期任务、空间、资源与时间受限的战术行动将增加。有人/无人作战系统在技术饱和战场的生存力,将取决于其进入作战区域的速度、区域内高机动能力及后续撤离重组再部署能力。小范围密集部署作战系统、静态作战模式、低水平欺骗伪装、线性单域作战及其他"经实战检验但过时"的传统军事行动方式,将倍增部队定位风险及随之而来的即刻压制风险。
所有已识别技术将构成整体防御能力与威慑基础,因其确保技术主导权。故任何国家必须发展并落实于安全领域建设。经合理结构整合与流程实施的技术,必将成为质量优势的决定因素。但若技术拥有方无法全面认知物理环境能力与给定条件,且不能因地制宜运用军事艺术、创造力及自身能力,则先进装备潜力在作战环境中的应用仍将不足。
大型语言模型(LLMs)正迅速从被动的文本生成引擎演化为具备计划、记忆、调用外部工具以及彼此协作能力的智能体实体。本文以观点论文的形式探讨了此类LLM智能体(及其组成的社会)如何重塑推荐系统的设计空间。
我们提出了一套统一的形式化框架,该框架:(i)将单个智能体建模为一个由语言核心、工具集和分层记忆组成的元组;(ii)将多智能体推荐系统建模为一个由智能体集合、共享环境以及通信协议组成的三元组。在此框架下,我们展示了四个端到端的应用案例——互动派对策划、用于离线评估的合成用户模拟、多模态家具推荐,以及符合品牌调性的解释生成——每个案例都体现了由智能体编排所解锁的一项关键能力。 随后,我们提出了五大跨领域的挑战类别:协议复杂性、系统可扩展性、幻觉与错误传播、涌现的不一致性(包括隐蔽串通),以及品牌一致性问题。对于每一类挑战,我们均进行了问题形式化、初步缓解策略回顾,并指出了亟待解决的开放研究问题。
最终成果既是蓝图也是议程:蓝图展示了如何将具备记忆增强与工具使用能力的LLM智能体组装成稳健的推荐流程;议程则号召推荐系统(RecSys)社区开发新的基准、理论保障机制以及治理工具,以应对这类高度自主系统的快速演进。 通过将智能体抽象与推荐目标相融合,本文为构建新一代个性化、可信赖且具备丰富上下文感知能力的推荐服务奠定了基础。
大型语言模型(LLM)驱动的智能体不仅仅是传统意义上的聊天机器人,它们展现出智能体行为,而非仅通过基于 token 的预测来回应用户查询。本质上,它们被设计用于处理多步骤任务、编排信息流,并在必要时自主调用各种工具或功能【50, 54, 67】。这一点与传统聊天机器人形成了鲜明对比——后者可能仅在一次对话轮次中提供简短回答,而智能体系统则能够主动组织复杂问题并通过一系列有条理的步骤加以解决。换言之,LLM 智能体不仅是被动的对话伙伴,更是具备将任务分解并调用外部资源以达成目标的动态问题求解者【20, 25, 69】。 使用 LLM 智能体的一个根本原因在于现实任务的复杂性和多阶段性。面对旅行规划、多维度研究或迭代设计流程等复杂情境,单个静态提示往往无法满足需求。这些任务通常涉及多轮决策与外部数据交互,而智能体系统能够将复杂目标拆分为较小的子任务,并逐步加以解决。这种方法规避了传统文本查询的局限,使得决策过程更具鲁棒性和上下文感知能力,并更贴近人类的推理方式【52, 59】。此外,通过将“认知负担”分散到不同的组件中,智能体框架还能降低“幻觉”或回答不完整的风险,确保最终结果不再依赖单次 token 预测【26】。 记忆机制是 LLM 智能体中的关键组成部分,它确保与用户的对话随着时间推移保持一致性和个性化。与传统聊天机器人每轮对话独立、无法追踪历史内容不同,现代智能体结合了多种互补的记忆结构,每种记忆类型都针对不同目标进行优化(详见第3节): * 工作记忆(短期):帮助智能体回忆当前会话中的近期对话内容。例如,当用户提出“推荐一本悬疑小说”后紧接着说“像上次那本一样”,工作记忆会保留原始推荐内容,从而响应后续请求,而无需用户重复前述查询。 * 情节记忆(长期):记录具体的过去事件及其上下文与元数据。例如,一周前用户请求推荐意大利餐厅,如今提出“上次提到的那家餐厅”,情节记忆能准确检索出对应推荐,并回溯其提出时间与理由。 * 语义记忆(长期):从多次交互中提炼并积累通用事实或用户偏好。例如,经过多次对话,智能体可能推断出用户偏好意大利菜,即使在当前会话中未提及,也能主动将意式选项优先排序。 * 程序性记忆(长期):编码已习得的技能、流程或脚本,使智能体能高效地自动执行重复性任务。例如,若用户频繁请求“总结会议记录并发送邮件”,智能体可学会这一工作流;下次用户只需说“发送之前的总结”,即可自动完成任务。
综合运用这些不同类型的记忆,使得智能体始终掌握之前的步骤、用户偏好及外部知识,从而实现更流畅且具上下文感知的交互【18, 83】。 LLM 智能体的另一项核心优势在于其自主调用工具的能力,这极大增强了其处理复杂任务和提供专业信息的能力(见第2.1节)。这些智能体不仅依赖静态模型参数,还能主动调用专用模块或外部服务,以获取精确信息、执行特定分析或开展领域任务【23, 47】。例如,在推荐场景中,当用户请求推荐餐厅时,智能体可使用专业检索工具或数据库查询当前评分与可预订信息,而非依赖记忆中的旧数据。同样地,在推荐适配用户上传房间图像与风格偏好的家具时,智能体可能调用图像分析工具提取视觉特征,再检索产品数据库,筛选出符合审美与空间要求的商品(见第4节)。这些工具的使用也可与记忆机制相辅相成——如语义记忆(用户偏好、物品属性)与情节记忆(先前推荐记录)结合,从而提供更精确且具上下文关联性的推荐。最终,工具集成将 LLM 智能体的功能扩展到传统对话之外,使其具备更强的适应性与个性化处理能力。 综上所述——多步骤任务处理、记忆保持与工具调用——共同赋予 LLM 智能体超越传统问答式聊天机器人的自主能力。通过将任务拆解为可管理的组件【52】、保留关键上下文【38】、并在合适时调用外部工具【55】,LLM 智能体能提供更具思考性与整体性的解决方案,为对话系统与推荐系统带来更智能与灵活的变革。
本文阐述评估加拿大武装部队(CAF)在拉脱维亚国家指挥控制(C2)能力适配性的方法论。分析团队运用加拿大联合作战中心(CJWC)的C2评估框架(C2AF),结合"方法空间"与"任务空间"C2理论架构,聚焦部队运用、部队生成、部队保障、部队发展与部队管理五大领域。通过对现役C2能力的评估,获得推动能力未来发展的实践路径及C2理论演进的学术启示。
2024年3月,加拿大联合作战中心(CJWC)受命分析"安心行动"(Operation REASSURANCE)中驻拉脱维亚加军的指挥控制(C2)机制。基于Alberts等(2014)的C2理论模型、Leslie(2011)的5F模型及CJWC自研C2评估框架(C2AF),旨在评估驻拉C2能力适配性。本文总结CJWC分析团队的评估方法,提炼关键结论、最佳实践及同类研究启示。分析聚焦"安心行动",重点关注支撑加拿大在拉核心军事力量——前方地面部队(FLF)旅的指挥体系。尽管专项分析C2技术要素(网络接入质量/数据流分布等)具重要价值,但超出本研究范畴。
C2AF作为分析基础框架,其概念模型将C2视为复杂社会技术系统,核心功能是跨域领导、协调、计划、组织与控制。该框架定义C2能力为"人员-流程-结构-技术"四要素赋能的组织决策-行动循环,将C2分解为组件、维度、属性与度量四级结构。通过度量指标测定,C2能力被归入四象限之一,对应其最适配的外部环境复杂度层级。C2AF框架的四大组件包括:
- 人员:人力资源要素,涵盖个体与集体的行为模式、文化认知、教育背景、知识储备、技能水平、训练状态及认知能力。 - 流程:同步协调机制,实现组织内部(子单元与参谋机构间)及外部(与其他行为体)资源与信息的冲突消解与管理。 - 结构:人力资源配置体系,含物理布局、组织层级、决策权等治理机制,以及权责界定(问责、职责、权限,简称ARA)。 - 技术:网络与信息管理系统,支撑内外协同伙伴的C2相关信息管理、通信保障与行动协调。
各组件均含"敏捷性"与"互操作性"两个维度。C2AF属动态演进文件,目前未公开发布。
摘要 —— 强化学习(Reinforcement Learning, RL)已成为对齐与增强大语言模型(Large Language Models, LLMs)的一种变革性方法,能够应对指令遵循、伦理对齐以及推理能力等方面的关键挑战。本文综述了强化学习与语言模型结合的全面基础,重点介绍了如近端策略优化(Proximal Policy Optimization, PPO)、Q学习(Q-Learning)和演员-评论家(Actor-Critic)等主流算法。此外,文章系统回顾了专为LLM定制的强化学习技术,包括基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)和基于AI反馈的强化学习(Reinforcement Learning from AI Feedback, RLAIF)等基础方法,以及偏好直接优化(Direct Preference Optimization, DPO)和群体相对策略优化(Group Relative Policy Optimization, GRPO)等先进策略。我们系统性地分析了这些技术在各领域的应用,从代码生成到工具增强推理不等。本文还基于奖励建模、反馈机制与优化策略提出了一套对比性分类体系。评估结果揭示了一些关键趋势:RLHF 仍然是主导性的对齐技术,而基于结果的强化学习(如 RL with Verified Rewards, RLVR)显著提升了逐步推理能力。然而,奖励欺骗、计算成本高昂以及反馈收集的可扩展性等持续性挑战,凸显了持续创新的必要性。我们进一步探讨了若干新兴方向,包括混合RL算法、验证器引导训练,以及多目标对齐框架。本综述可为研究人员提供一份关于RL驱动的大语言模型开发的路线图,致力于在提升能力的同时兼
性与可扩展性。
关键词 —— 强化学习、大语言模型、RLHF、对齐、推理、自然语言处理、人工智能 **
**
一、引言
大语言模型(Large Language Models, LLMs)已成为人工智能领域的变革性技术,在理解和生成自然语言方面展现出卓越能力。从 GPT-3 拥有的 1750 亿参数 [1],到近年来如 LLaMA 3.1 的 4050 亿参数 [2],以及 DeepSeek-V3 的 6710 亿参数 [3],这些模型在规模和能力上持续扩展。尽管它们在多种任务中表现出色,LLMs 仍然面临“对齐”(alignment)问题,即确保模型输出始终反映人类的价值观、偏好与意图,仍是一项重大挑战。LLMs 往往会产生“幻觉”(hallucination)[4],存在生成有害内容的风险 [5]–[7],并且在执行复杂指令方面常常表现不佳 [8]。
强化学习(Reinforcement Learning, RL)是一种智能体通过与环境交互中的试错过程进行学习的范式,近年来成为应对对齐挑战的强有力框架。与传统依赖标注样本的监督学习方法不同,强化学习能够引入不可微分的反馈信号,并优化多目标的复杂任务。在 LLM 中引入强化学习,标志着人工智能对齐研究的一项重大进展,使模型能够学习人类偏好、提升推理能力,并更好地遵循伦理规范。本文旨在全面审视应用于 LLM 的强化学习技术,聚焦于模型在“对齐人类价值”与“增强推理能力”两方面的提升。
将强化学习应用于 LLM 面临一系列区别于传统 RL 场景的独特挑战。在 LLM 中,状态空间通常由输入提示或对话历史构成,而动作空间则涵盖模型完整的词汇表,形成了一个极其庞大且离散的动作集合。这种高维动作空间对算法设计提出了更高要求,与机器人控制或游戏等传统 RL 应用场景有显著不同。此外,LLM 中的奖励信号通常来自于人类对文本质量、有用性、无害性和诚实性等复杂维度的主观判断,这些属性本质上难以量化。
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)[9] 已成为对齐 LLM 与人类偏好的事实标准。该方法通常包含三个阶段:首先基于高质量示范数据进行有监督微调,其次利用人类偏好数据训练奖励模型,最后使用如近端策略优化(PPO)[10]等算法对策略进行优化。RLHF 在提升指令遵循能力、减少有害输出方面取得了显著成效,OpenAI 的 InstructGPT 即为代表性成果 [9]。
然而,人类标注的可扩展性问题推动了替代方案的发展。基于 AI 反馈的强化学习(Reinforcement Learning from AI Feedback, RLAIF)[11] 用其他 AI 系统的评估结果来替代或增强人类反馈,在维持相近性能的同时大幅降低了标注成本。宪法 AI(Constitutional AI)[12] 是 RLAIF 的一种特化形式,模型根据预定义的原则对自身输出进行批判与修正,尤其适用于无害性对齐。近期的研究进一步致力于简化 RLHF 流程,例如偏好直接优化(Direct Preference Optimization, DPO)[13],跳过显式奖励建模,直接通过偏好对进行策略优化,在计算效率和训练稳定性方面具有优势。实证研究显示,DPO 在情感控制与摘要等任务中的表现可与基于 PPO 的 RLHF 相媲美甚至超越,同时大大降低了系统复杂度。
除了人类偏好对齐之外,RL 技术也越来越多地用于提升 LLM 的推理能力。基于结果的强化学习(Outcome-Based Reinforcement Learning)[14] 关注最终答案的正确性,即使中间推理步骤未被监督也可进行优化。更先进的方法如带可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)[15],能为推理过程中的每一步提供反馈,显著提升模型在数学与逻辑推理任务上的表现。例如,RLVR 将 GPT-3.5 在数学推理基准 GSM8K 上的准确率从 56.8% 提升至 72.5%,且仅需少量训练样本。尽管已有显著进展,将 RL 应用于 LLM 仍存在诸多挑战,例如奖励函数被模型“钻空子”的奖励欺骗现象(reward hacking)[16], [17];以及 RL 训练所需的庞大计算成本,尤其是在参数量级为数十亿的模型上,给实际部署带来困难。此外,不论是来自人类还是 AI 系统,确保反馈的质量与代表性 [18], [19] 仍是一个复杂难解的问题。
本文在该领域的贡献包括以下几点:第一,我们提供了一份关于 RL 技术在 LLM 中应用的全面技术综述,涵盖了如 RLHF 与 RLAIF 等基础方法,以及 DPO 和群体相对策略优化(Group Relative Policy Optimization, GRPO)等前沿方法。第二,我们系统分析了 RL 技术在多个领域的应用,如代码生成与工具增强推理,展现其广泛适应性与有效性。第三,我们提出了一个基于奖励建模、反馈机制与优化策略的对比分类体系,为理解 RL 在 LLM 中的技术生态提供结构化框架。最后,我们还讨论了若干新兴研究方向,包括混合 RL 算法、验证器引导训练,以及多目标对齐框架。
本文其余部分安排如下:第二节介绍 LLM 与强化学习的基础概念;第三节详细讲解为 LLM 改编的具体 RL 算法;第四节探讨用于对齐与推理增强的 RL 技术;第五节展示 RL 在各类应用场景中的实践;第六节提供一套比较分析与评估;第七节讨论现有挑战与局限;第八节展望未来研究方向;第九节总结全文。我们希望通过本综述为研究者与实践者提供一份推动 RL 驱动 LLM 发展的技术路线图,在提升模型能力的同时兼顾安全性与可扩展性。
本书是对(深度)神经网络(NN)这一主题的入门介绍。神经网络是大语言模型、生成式人工智能以及众多其他应用的核心技术。由于“神经”这一术语带有较多的历史包袱,而神经网络本质上只是可微分算子的组合,因此在合适的上下文中,我更倾向于使用更为简洁的术语——“可微模型”来指代它们。
2009年,我几乎是偶然读到了一篇由 Yoshua Bengio 撰写的关于“深度”神经网络强大能力的论文 [Ben09],那时自动微分库如 Theano [ARAA+16] 正在变得流行。就像爱丽丝闯入了一个奇妙的编程国度——一个可微分的仙境,在那里,诸如选择一个元素这样看似简单的操作变得异常困难,而像识别猫这样原本复杂的任务却变得令人惊讶的简单。
过去十多年里,我一直在阅读、实现和讲授这类模型。本书是我尝试将这些年所学内容加以提炼的一个粗略总结,重点放在神经网络的设计及其最常见的组成部分上。鉴于该领域发展迅速,我力求在理论与代码、历史视角与最新趋势之间取得良好平衡。我假设读者具有一定的机器学习和线性代数基础,但在必要时也会涵盖相关的基础内容。