摘要——AI 智能体正在经历一场范式转变:从早期由强化学习(Reinforcement Learning, RL)主导,到近年来由大语言模型(Large Language Models, LLMs)驱动的智能体兴起,如今正进一步迈向 RL 与 LLM 能力融合的协同演进。这一演进过程不断增强了智能体的能力。然而,尽管取得了显著进展,要完成复杂的现实世界任务,智能体仍需具备有效的规划与执行能力、可靠的记忆机制,以及与其他智能体的流畅协作能力。实现这些能力的过程中,智能体必须应对始终存在的信息复杂性、操作复杂性与交互复杂性。针对这一挑战,数据结构化有望发挥关键作用,通过将复杂且无序的数据转化为结构良好的形式,从而使智能体能够更有效地理解与处理。在这一背景下,图(Graph)因其在组织、管理和利用复杂数据关系方面的天然优势,成为支撑高级智能体能力所需结构化过程的一种强大数据范式。

为此,本文首次系统性地回顾了图如何赋能 AI 智能体。具体而言,我们探讨了图技术与智能体核心功能的融合方式,重点介绍了典型应用场景,并展望了未来的研究方向。通过对这一新兴交叉领域的全面综述,我们希望激发下一代智能体系统的研究与发展,使其具备利用图结构应对日益复杂挑战的能力。相关资源可在附带的 Github 链接中获取,并将持续更新以服务社区。

关键词:图、图学习、智能体、大语言模型、强化学习、综述

一、引言

在人工智能(AI)快速演进的浪潮中,AI 智能体因其在任务自动化处理方面的巨大潜力而受到广泛关注。智能体的发展历程经历了从早期基于强化学习(Reinforcement Learning, RL)的架构 [1], [2],到近年来由大语言模型(Large Language Models, LLMs)驱动的智能体 [3], [4],再到最新融合 LLM 作为知识基础与 RL 作为任务特定学习范式的紧耦合架构 [5],标志着智能体能力的一次重大飞跃。这一演进使得智能体能够利用 LLM 所蕴含的广泛世界知识理解复杂任务,并通过 RL 优化实现对任务的精准处理。 执行复杂现实任务的 AI 智能体往往需要具备多样化的能力 [6], [7]。高效的任务导航依赖于诸多智能体功能,例如精细化的规划能力、结合外部工具的精确执行能力、可靠的记忆机制,以及与其他智能体的高效协同能力 [8], [9]。然而,由于任务复杂性的存在,智能体在这些功能中常常面临信息、操作符以及交互的错综复杂与混乱无序。因此,亟需一种有效方式来组织和管理所遇数据,以便智能体能够更好地理解和高效处理,从而提升其应对复杂任务的能力。例如,在规划阶段,智能体需要解析非结构化的任务描述并将其重组为可执行的子任务计划;在执行过程中,需合理编排多种外部工具以兼顾效率与准确性;在记忆管理中,需有序整理庞大的内容以便有用信息得以保留并可快速检索;而在多智能体协作中,则需确定合适的协同拓扑结构,以实现有效的信息传递。在面对非结构化数据时,传统智能体通常只能在学习过程中隐式捕捉其中潜在的关联。基于数据中固有的有益关系,采用图为基础的显式建模结构化方法成为应对这一挑战的有前景途径,能够将原始而复杂的输入转化为简洁有序的形式,从而提升智能体的理解力与处理效率。这类结构化信息有助于智能体探索复杂任务并做出更具信息性的决策。 图在各类领域中已展现出广泛的适用性 [10]–[12],并被证明是管理数据、组织含有有价值关系信息的一种强大范式。在构建好的图基础上,图学习(Graph Learning)进一步通过对结构化信息的学习展现出显著成效 [13], [14]。具体而言,图通过将实体表示为节点、显式或隐式关系建模为边,提供了一种有效的数据组织方式。一个合适的图结构是实现智能体数据组织的关键。图结构的构建具有高度灵活性,可根据特定环境、任务、操作符与应用需求自定义图结构 [15]–[17],也可以利用现有的外部知识图谱 [18], [19]。这种灵活性使得图能够广泛嵌入于多种智能体及其多样化功能中。在构建好的图之上,图学习技术还可进一步提供一个强大的知识提取框架,帮助智能体捕捉复杂关系与有意义的信息。这使得图技术成为增强 AI 智能体在复杂场景下能力的理想手段。因此,图与智能体的交叉融合有望大幅提升其对结构化信息的处理与利用能力,进而赋能其在规划、执行、记忆与多智能体协作等方面的关键功能。 分类框架:本综述系统性地探讨了图在信息、操作符与多模型结构化组织中的作用,涵盖了从基于 RL 的智能体到基于 LLM 的智能体范式。考虑到 RL 技术与 LLM 基础模型日益紧密的融合,我们在分析中并未刻意区分图学习在这两类智能体架构中的作用,而是如图 1 所示,从智能体核心功能出发,以图赋能为主线展开讨论。我们重点关注图学习如何增强智能体的四大关键功能:规划、执行、记忆与多智能体协作。此外,本综述还探讨了智能体反过来如何促进图学习技术的发展。最后,在全面回顾的基础上,我们梳理了潜在的应用前景与关键的未来研究方向。通过综述该领域的系统洞察,我们旨在推动新一代能够利用结构化知识应对日益复杂挑战的 AI 智能体的发展。 在本文所探讨的背景下,现有综述主要集中于图技术在强化学习中的应用价值 [20], [21]。而随着 LLM 的快速发展,图学习也被视为提升其能力的有效技术,已有若干综述对该方向进行过探讨 [22], [23]。然而,尽管已有贡献,目前仍缺乏一项系统性地阐述图如何在智能体不同功能中发挥作用的综述。据我们所知,本文为首个系统性探索图技术与智能体多维操作交叉点的研究综述。我们希望通过全面回顾,为构建下一代图赋能智能体提供有价值的研究参考与启发。 本文的主要贡献如下: * 本文首次全面综述了图技术与 AI 智能体之间这一强大而充满潜力的交叉方向; * 我们提出了一种新的分类方法,系统化地梳理了图在智能体不同核心功能(规划、执行、记忆与协作)中的作用,并探讨了智能体如何反过来推动图学习的发展; * 基于本综述,我们进一步分析了图赋能智能体的应用前景、关键挑战以及未来研究方向。

文章结构如下:第二节介绍与本综述相关的基础知识;第三至第七节将根据提出的分类方法,详述各项相关研究;第八与第九节分别探讨图与智能体交叉领域中的潜在应用与未来机会;第十节对全文进行总结归纳。

本文提出了一种全新的分类方法,用于系统地探讨图技术与 AI 智能体如何实现相互增强,如图 2 所示。具体而言,在第 III 至第 VI 节中,我们介绍了图学习如何支持智能体的核心功能,包括规划(第 III 节)、执行(第 IV 节)、记忆(第 V 节)以及多智能体协作(第 VI 节)。通过将图与智能体功能之间的协同点加以细分,不仅契合了智能体系统设计中的自然模块化特征,也凸显了图技术在每项功能中所蕴含的独特潜力。 此外,在第 VII 节中,我们进一步探讨了智能体范式如何反过来促进图学习的发展。通过明确考虑这一反向作用,即基于智能体范式如何反哺图学习过程,我们强调了双向创新的重要性,并倡导一种整体视角,即图与智能体协同演化、深度融合,从而激发出超越单向整合的新方法论。 基于这一结构清晰的分类框架,我们将在第 VIII 与第 IX 节中进一步讨论相关应用与未来研究机遇。

成为VIP会员查看完整内容
50

摘 要:人工智能技术作为推动现代战争向智能化战争转型的重要变量,正在深刻改变战争形 态和方式。梳理和总结了2024年人工智能技术在军事智能领域的最新科技进展。综述表明:美、欧 在持续加强人工智能顶层设计、研发投入、机构改革的同时,开始逐渐从安全、成本等角度审视和 调整相关人工智能战略;生成式智能、群体智能、人机混合智能、具身智能等人工智能技术在军事 领域保持较高发展热度,并产出众多里程碑式成果,引领智能无人平台自主感知与跨域协同的军事 智能技术发展趋势;同时,世界主要军事强国正快速将军事智能广泛应用于陆战、海战、空战等多 作战域;未来,类人化数理与因果逻辑推理、全局和本地协同化模型训练、边缘侧低资源模型部署 与推理、大小模型弹性融合实施等,将成为军事智能技术的重要发展方向。 关键词:人工智能;军事智能;生成式智能;群体智能;人机混合智能;具身智能

成为VIP会员查看完整内容
33

摘要——强化学习(Reinforcement Learning, RL)是解决序列决策问题的重要机器学习范式。近年来,得益于深度神经网络的快速发展,该领域取得了显著进展。然而,当前RL的成功依赖于大量训练数据和计算资源,且其跨任务泛化能力有限,制约了其在动态现实环境中的应用。随着持续学习(Continual Learning, CL)的兴起,持续强化学习(Continual Reinforcement Learning, CRL)通过使智能体持续学习、适应新任务并保留既有知识,成为解决上述局限性的重要研究方向。本文对CRL进行了系统梳理,围绕其核心概念、挑战和方法展开论述:首先,详细回顾现有研究,对其评估指标、任务设定、基准测试和场景配置进行归纳分析;其次,从知识存储/迁移视角提出新的CRL方法分类体系,将现有方法划分为四种类型;最后,剖析CRL的特有挑战,并为未来研究方向提供实践性见解。 关键词——持续强化学习,深度强化学习,持续学习,迁移学习

一、引言

强化学习(Reinforcement Learning, RL)已成为机器学习中的一种强大范式,使智能体能够通过与环境的交互学习最优的决策策略 [1]。当强化学习与深度神经网络的表示学习能力相结合时,便产生了深度强化学习(Deep Reinforcement Learning, DRL),其在多个领域取得了显著的成功 [2]。DRL 展现了在解决高维复杂决策问题方面的巨大潜力,从精通国际象棋、日本将棋和围棋等棋类游戏 [3],到推动科学发现,如蛋白质结构预测 [4]、量子计算误差校正 [5],以及大型语言模型的训练 [6],[7]。此外,DRL 也被广泛应用于现实世界中的控制任务,如热电联产系统优化 [8]、托卡马克核聚变反应堆中等离子体配置控制 [9],以及实现安全的自动驾驶 [10]。 尽管 DRL 已取得诸多成就,但其当前的成功主要归因于在特定任务上学习固定策略的能力,通常需要大量的训练数据和计算资源 [11]。这为 DRL 在现实应用中的部署带来了重大挑战。具体来说,现有的 DRL 算法普遍缺乏跨任务高效迁移知识或适应新环境的能力。面对新任务时,这些算法通常需要从头开始学习,导致样本效率低下以及泛化能力差 [12]–[14]。 为应对上述挑战,研究人员开始探索如何使 RL 智能体避免灾难性遗忘并有效迁移知识,其最终目标是推动该领域向更具类人智能的方向发展。人类在解决新任务时,能够灵活地利用已有知识,同时不会显著遗忘已掌握的技能 [15]。受到这一能力的启发,持续学习(Continual Learning, CL),又称终身学习或增量学习,旨在构建能够适应新任务并保留过往知识的学习系统 [16]–[19]。CL 面临的核心挑战在于稳定性与可塑性的平衡——即在维持已学知识稳定性的同时,又具备足够的灵活性来适应新任务。其总体目标是构建能在整个生命周期内持续学习和适应的智能系统,而不是每次面对新任务时都从零开始。当前 CL 的研究主要聚焦于两个方面:灾难性遗忘的缓解以及知识迁移的实现。灾难性遗忘指的是学习新任务会导致模型覆盖并遗失先前已学任务的知识;而知识迁移则是指利用过往任务中积累的知识来提升新任务(甚至是已见任务)的学习效率与表现。成功解决这两个问题对于构建稳健的持续学习系统至关重要。 持续强化学习(Continual Reinforcement Learning, CRL),又称终身强化学习(Lifelong Reinforcement Learning, LRL),是 RL 与 CL 的交叉领域,旨在突破当前 RL 算法的多种局限,构建能够持续学习并适应一系列复杂任务的智能体 [20],[21]。图 1 展示了 CRL 的基本设置。与传统 DRL 主要聚焦于单一任务性能最优化不同,CRL 更强调在任务序列中保持并增强泛化能力。这种焦点的转变对于将 RL 智能体部署于动态、非平稳环境中尤为关键。 需要指出的是,“lifelong” 与 “continual” 两个术语在 RL 文献中常被交替使用,但不同研究中的定义与使用方式可能存在显著差异,从而引发混淆 [22]。一般而言,大多数 LRL 研究更强调对新任务的快速适应,而 CRL 研究更关注避免灾难性遗忘。本文采用更广义的 CRL 作为统一术语,呼应当前 CL 研究中同时兼顾这两个方面的趋势。 CRL 智能体需实现两个核心目标:(1)最小化对先前任务知识的遗忘;(2)利用已有经验高效学习新任务。达成这两个目标将有助于克服 DRL 当前的局限,推动 RL 技术向更广泛、更复杂的应用场景拓展。最终,CRL 旨在实现类人的终身学习能力,使其成为推动 RL 研究的重要方向。 目前,关于 CRL 的综述工作仍相对较少。部分综述文献 [18],[23] 对 CL 领域进行了全面回顾,包括监督学习与强化学习。值得注意的是,Khetarpal 等人 [21] 从非平稳 RL 的视角对 CRL 进行了综述,首先对通用 CRL 问题进行了定义,并通过数学刻画提出了不同 CRL 形式的分类体系,强调了非平稳性所涉及的两个关键属性。然而,该综述在 CRL 中的一些重要方面——如挑战、基准测试与场景设置等——缺乏详细的对比与讨论,而这些因素对于指导实际研究至关重要。此外,过去五年中 CRL 方法数量快速增长。鉴于此,本文旨在系统回顾近年来关于 CRL 的研究工作,重点提出一种新的 CRL 方法分类体系,并深入探讨知识在 CRL 中的存储与迁移机制。 本综述深入探讨了 CRL 这一不断发展的研究领域,旨在弥合传统 RL 与现实动态环境需求之间的差距。我们全面审视了 CRL 的基本概念、面临的挑战与关键方法,系统性地回顾了当前 CRL 的研究现状,并提出了一套将现有方法划分为不同类别的新分类体系。该结构化方法不仅清晰地描绘了 CRL 研究的整体图景,也突出了当前的研究趋势与未来的潜在方向。我们还从策略、经验、动态与奖励等多个角度审视方法间的联系,为优化 CRL 的学习效率与泛化能力提供了细致的理解。此外,我们也关注推动 CRL 边界的新兴研究领域,并探讨这些创新如何助力构建更复杂的人工智能系统。 本综述的主要贡献体现在以下几个方面: 1. 挑战分析:我们强调了 CRL 所面临的独特挑战,提出其需要在可塑性稳定性可扩展性三者之间实现平衡; 1. 场景设定:我们将 CRL 场景划分为终身适应非平稳学习任务增量学习任务无关学习,为不同方法提供了统一的对比框架; 1. 方法分类:我们提出了一种基于知识存储与迁移方式的新 CRL 方法分类体系,涵盖策略导向经验导向动态导向奖励导向方法,帮助读者结构性地理解 CRL 策略; 1. 方法综述:我们对现有 CRL 方法进行了最全面的文献回顾,包括开创性工作、最新发表的研究成果以及有前景的预印本; 1. 开放问题:我们讨论了 CRL 当前的开放问题与未来研究方向,如任务无关的 CRL评估与基准建设可解释知识建模以及大模型的集成使用

表 I 展示了本文的结构安排。接下来的内容如下:第二节介绍 RL 与 CL 的基础背景,有助于理解 CRL 的核心理念;第三节概述 CRL 的研究范畴,包括定义、挑战、评价指标、任务设置、基准与场景分类;第四节详细介绍我们提出的 CRL 方法分类体系,并回顾现有方法,按知识类型划分为策略导向(第四节 B)、经验导向(第四节 C)、动态导向(第四节 D)与奖励导向(第四节 E)四类;第五节探讨 CRL 的开放问题与未来发展方向;第六节为本文的总结与展望。

成为VIP会员查看完整内容
33

Image

几十年前,Mumford 曾写道,代数几何“似乎已经获得了一个声誉:它晦涩难懂、门槛极高、抽象无比,其拥护者似乎正密谋接管数学的其他所有分支。”如今,这场革命已全面到来,并从根本上改变了我们对许多数学领域的理解方式。本书为读者提供了这一变革性思想体系的坚实基础,通过非正式但严谨的讲解方式,帮助读者在掌握强大技术工具的同时建立直观理解。 本书以范畴思维和层的讨论为起点,逐步引出“几何空间”的概念,并以概型和簇为代表展开阐述,随后进一步讨论这些几何对象的具体性质。接下来的章节涵盖了维数与光滑性、向量丛及其自然推广、重要的上同调工具及其应用等主题。对于一些关键但进阶的内容,书中也通过带星号的部分进行了补充。 主要特色包括:

提供全面系统的入门指导,有望成为该领域的权威教材; * 包含丰富的练习,强调“做中学”的学习方式; * 几乎不设前置要求,从范畴论和层论一直发展到交换代数与上同调代数,构建学生所需的全部工具; * 采用以实例为驱动的方式,帮助建立扎实的数学直觉; * 既是面向研究生的自包含教材,也是研究人员的重要参考书籍。

成为VIP会员查看完整内容
30

本美陆军训练条令为班组、小队及分队提供标准化直接火力杀伤链,通过通用标准化接战流程建立协同原则。本训练条令适用于装甲旅/斯特瑞克旅/步兵旅战斗队所有直射武器、武器系统及分队,供陆军全体人员、指挥官及参谋机构从单兵至旅级使用。

直接火力杀伤链旨在规范描述直射武器操作者、班组、乘组及排级单位的任务行动,使士兵与指挥官在最大化杀伤效能同时降低误伤与附带损伤。导图1展示直接火力杀伤链全流程。

直接火力杀伤链(下称"杀伤链")是持续进行的系统性互联任务、行动与功能,旨在对确认威胁快速有效施加适当战斗力以实现预期战术效果。

目的
本训练条令阐述直射武器杀伤链在士兵、指挥官、乘组、班排层级的应用,概述杀伤链各互联任务节点及其必须达成的具体结果(无论实现路径)。该流程代表直射武器接战标准程序,依赖操作者对部队敌我识别装备、单兵技能、交战规则、条令(含战术技术程序)、目标识别系统及战场态势认知系统的掌握。本手册仅在直接影响杀伤链时详述这些系统,协助指挥官决策实施致命直射火力打击,必要时标注相关补充出版物。

概览
杀伤链提供迭代化、标准化、系统化的目标接战方法。以下概述其基本功能环节:

1.武器状态
规范指挥官向下级通报战术任务中武器状态与交战规则的节点。武器状态是武器安全状态与基于敌情可能性的武器控制状态组合,交战规则由部队指挥官提供。二者协同使机动单元建立快速释放精确战斗力的战备等级,贯彻指挥官意图、防止误伤并减少附带损伤。

  • 来源:作战命令/预警命令/片段命令/交战规则/战术标准流程/威胁模板/态势模板等情报信息
  • 成果:小单位明确武器状态与交战规则,建立多弹种系统(如艾布拉姆斯/布莱德利)的"战斗携行状态"

图1-1 杀伤链

2.观察
论述士兵或集体单元持续扫描责任区重叠扇面,在接触前目视发现潜在战术威胁的过程。观察员选择特定区域精细侦察,识别环境异常、潜在威胁阵地、接近路径及敌可利用地形。

  • 来源:基于能力/标准流程/职能划分的建制观察扇区
  • 成果:锁定需精细侦察的关注区域

3.侦测
启动目标获取流程(侦测-识别-定位),描述观察员在责任区发现潜在威胁证据(目标特征)的过程。士兵先敌目视接触能力使部队能率先释放战斗力(反制接触)。

  • 来源:观察员发现的目标特征或异常
  • 成果:责任区内发现潜在威胁证据

4.识别
界定识别职责——判定未知接触性质(敌/我/中立/非战斗员/不明)的过程(JP 3-01)。识别工作包含对可辨识接触的质询判别,需结合情报、已知态势、敌我部署等信息判定非战斗员状态,是目标获取关键环节(JP 3-60)。

  • 来源:遵循"识别四步法"(辨识-评估-识别-判别)分析接触目标的车体/武器/悬挂/炮塔/装备/反应装甲
  • 成果:
    • 辨识目标军事属性
    • 评估威胁等级
    • 识别型号(或通称)及变体
    • 判别敌意属性(敌/我/中立/非战斗员/不明)

5.定位
涵盖确定已识别目标位置的方法,以引导武器系统或战斗力释放。观察员通过接触报告(或射手提交的目标捕获报告)向指挥官传递战术信息,定位触发单元光学/传感器/武器就绪状态调整,是目标获取核心环节(JP 3-60)。

  • 来源:共享至集体的判别目标信息;数字/模拟定位系统
  • 成果:指挥官获知目标位置,对应武器系统完成指向

6.决策
规范指挥官决策流程:在授权开火命令时判定战斗力运用方式、威胁等级分类、打击优先级及火力模式。所有决策基于杀伤链原则实施。

  • 来源:提交指挥官的接触/捕获报告
  • 成果:
    • 指挥官选定战斗力、分类威胁、排定打击序列、确定火力模式
    • 指挥官与射手完成目标确认

7.接战
概述直射火力交战实施规范,描述班/乘组/集体火力指挥要素结构(详见子条令TC 3-20.31-043)。火力指挥周期持续至达成预期效果,即有效破坏确认目标的杀伤链并消除其对友军威胁。

  • 来源:指挥官打击决策
  • 成果:对所有已知威胁达成预期毁伤效果

8.报告
交战完成后指挥官需向上级更新战术态势、战斗力运用效果及后续行动计划。本章规范数字/模拟/调频等报告方式及需提供的战术情报信息。

  • 来源:指挥官对战斗力效果/单元状态/后续行动的评估
  • 成果:向上下级传递战术情报,保障作战区域态势可视化

成为VIP会员查看完整内容
28

摘要——随着生成式人工智能(Generative AI)的快速发展,尤其是大语言模型的不断突破,推荐系统正朝着更具通用性的方向演进。与传统方法不同,生成式人工智能不仅能够从复杂数据中学习模式和表示,还具备内容生成、数据合成和个性化体验等能力。这种生成能力在推荐系统中发挥着关键作用,能够缓解数据稀疏问题,并提升系统的整体性能。当前,基于生成式 AI 的推荐系统研究已取得了丰富成果。与此同时,推荐系统的目标也已超越单一的准确性要求,催生了大量面向多目标优化的研究,试图在推荐中综合考虑多种目标。然而,据我们所知,目前尚缺乏基于生成式 AI 技术的多目标推荐系统的系统性综述研究,相关文献仍存在明显空白。为填补这一研究空缺,本文对融合生成式 AI 的多目标推荐系统研究进行了系统梳理,按照优化目标对现有工作进行分类整理。同时,我们总结了相关的评估指标和常用数据集,并进一步分析了该领域面临的挑战与未来发展方向。 关键词——多目标优化,推荐系统,生成式人工智能,大语言模型

1 引言 在大数据时代,推荐系统已成为应对信息过载问题的关键工具,帮助用户高效地发现有价值的内容。它们被广泛应用于音乐、新闻、职位推荐等多个领域 [1]–[3],通过过滤海量信息流,显著提升用户体验。推荐系统的发展已历经数十年,从最初的协同过滤方法 [4]–[7] 和内容推荐方法 [8], [9],到后来的混合模型 [10]、基于图神经网络的方法 [11],以及深度学习方法 [12], [13],不断演进以满足日益增长的个性化和可扩展性需求。

近年来,生成式人工智能(Generative AI)的突破显著改变了推荐系统的格局。正如文献 [14] 所指出的,基于生成技术的推荐系统已成为该领域的新兴研究方向。生成对抗网络(GANs)[15]、变分自编码器(VAEs)[16]、扩散模型 [17] 和大语言模型(LLMs)[18] 等技术,使得推荐系统能够更丰富地进行数据合成并实现更深层次的上下文理解。其中,大语言模型在处理多模态数据(文本、图像、视频)和生成上下文感知的推荐内容方面展现出强大能力,带来了前所未有的灵活性。与传统模型依赖历史数据预测用户偏好不同,生成模型可以模拟用户交互、增强稀疏数据集,并生成个性化内容,从而为推荐范式的创新开辟了新路径。

生成模型在推荐系统领域展现出巨大潜力。目前的研究主要集中在单一目标任务,例如通过合成数据提升准确性,或利用大语言模型增强可解释性。然而,对准确性的过度关注可能导致“过滤泡沫”(filter bubble)现象 [19],使用户被限制在重复或同质化的内容中,抑制探索行为并削弱长期参与度。考虑到生成式人工智能在推理和理解方面的先进能力,其在多目标推荐中的应用也极具前景。 研究社区已广泛探索在传统推荐系统框架下平衡多种目标的多目标推荐系统(MORS)[20]–[23],但在融合生成式 AI 技术方面,相关研究仍属稀缺。因此,将多目标优化整合进生成式推荐系统,是一个亟待深入研究的方向。

为填补这一空白,本文系统调研了使用生成技术实现多目标推荐的现有研究。我们特别强调,任何关于推荐系统附加目标(如多样性、偶然性或公平性)的讨论,都隐含地将准确性作为基础性前提。因此,我们将多目标推荐系统(MORS)定义为:优化准确性之外其他目标的推荐系统。 本综述识别出当前生成式推荐系统中除准确性外的主要目标包括:多样性、偶然性、公平性与安全性;此外还涉及新颖性、可控性、效率与鲁棒性等附加目标。我们聚焦于推荐系统中广泛应用的四类生成技术:GANs、扩散模型、VAEs 与大语言模型。针对每一类目标,我们深入回顾了主流的模型架构与评估指标,并总结相关发展挑战,旨在为未来的多目标生成式推荐研究提供基础性见解。

本文的主要贡献如下:

本文为首个将生成式人工智能(包括 GANs、VAEs、扩散模型和大语言模型)与多目标推荐系统(MORS)结合的全面综述,提出了一个面向目标的分类框架,系统回顾了四类关键目标(多样性、偶然性、公平性、安全性)下模型架构、优化策略和评估指标的发展与局限性。 * 我们系统总结了不同目标领域(如公平性与偶然性)下的专用评估指标对应基准数据集,为实验设计提供标准化参考。 * 我们还讨论了生成式 MORS 研究中的核心挑战,并展望了未来的发展方向,包括改进评估指标、设计适用于 LLM 的高级策略、融合多种生成技术以提升推荐质量等。此外,我们强调跨学科合作(如伦理学、社会学)的重要性,以构建更加公平透明的推荐系统。这些见解为学术界与工业界的进一步探索与创新奠定了基础。

文章结构概览:

第 2 节综述推荐系统、生成式推荐系统和多目标推荐系统的相关文献,构建研究背景。 第 3 节介绍本文涵盖的四类主要生成技术。 第 4 节作为核心部分,系统梳理基于生成技术的多目标推荐系统,按超越准确性的目标进行分类,介绍相关定义、模型与评估指标。 第 5 节总结各类目标下常用的推荐数据集。 第 6 节探讨每类关键目标面临的主要挑战。 最后在第 7 节对全文进行总结。

成为VIP会员查看完整内容
30

图学习已迅速发展成为机器学习与人工智能(AI)领域中的一个关键子方向,使得对社交网络、生物学、金融、交通运输和知识表示等领域中复杂关系数据的建模成为可能。图学习的发展始于早期的图论方法,并在图神经网络(GNNs)出现后获得了显著推动。在过去十年中,随着可扩展架构、动态图建模、多模态学习、生成式人工智能、可解释人工智能(XAI)以及负责任人工智能的发展,图学习的适用范围已经扩展到多个复杂的应用场景。

图学习之所以重要,是因为它能够建模复杂的非欧几里得关系,而这类关系通常难以被传统机器学习方法有效捕捉,从而更好地支持诸如药物发现、欺诈检测、推荐系统和科学推理等现实世界应用。然而,为了充分释放图学习的潜力,仍需解决一系列挑战,如可扩展性、泛化能力、异质性、可解释性以及可信性等问题。 本综述对图学习进行了全面介绍,重点关注以下几个关键维度:可扩展图学习、时序图学习、多模态图学习、生成式图学习、可解释图学习和负责任图学习。我们系统回顾了当前处理大规模图结构的高效技术、捕捉时序动态依赖关系的方法、异构数据模态的融合方式、新颖图样本的生成机制,以及提升可解释性以增强信任与透明度的研究进展。同时,我们还探讨了图学习模型在部署过程中所面临的伦理问题,如隐私保护与公平性,以促进其负责任地应用。

此外,我们还识别并讨论了一些新兴主题,特别是图学习与其他AI范式的融合趋势,并对未来发展方向提供了前瞻性见解。本综述旨在为希望深入了解图学习快速演进格局的研究者与实践者提供一份有价值的参考资料。

成为VIP会员查看完整内容
27

摘要——近年来,视觉-语言预训练(Vision-Language Pretraining)作为一项融合视觉与文本模态优势的变革性技术,催生了强大的视觉-语言模型(VLMs)。依托于网络规模的预训练数据,这些模型展现出卓越的零样本推理能力。然而,在面对特定领域或专业任务时,其性能常常出现显著下降。为解决该问题,研究社区日益关注如何将 VLM 中蕴含的丰富知识迁移或泛化到多样的下游应用中。 本文旨在全面梳理 VLM 泛化的研究设定、方法体系、评测基准与实验结果。我们首先分析典型的 VLM 架构,并依据迁移模块的不同,将现有文献划分为基于 Prompt(提示)、基于参数、以及基于特征的方法三大类。随后,结合经典迁移学习(Transfer Learning, TL)设定,进一步总结与探讨各类方法的差异与特点,提出 VLM 时代下迁移学习的新解读。此外,本文还系统介绍了主流 VLM 泛化评测基准,并对各类方法在不同任务中的表现进行了详尽对比。

随着大规模通用预训练的不断演进,本文也探讨了视觉-语言模型与最新多模态大语言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之间的关联与差异。通过从“泛化”这一全新且实用的视角系统梳理视觉-语言研究的快速进展,本文有助于清晰描绘当前与未来多模态研究的整体格局。 关键词——视觉-语言模型,迁移学习,提示调优,鲁棒微调,领域泛化,测试时自适应,无监督领域适应,多模态大语言模型

1 引言

深度神经网络已在众多实际应用中取得显著成果。以视觉模型为例,从 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型规模与表示能力都得到了极大提升。然而,高效训练这些大规模模型往往需要大量标注数据与巨大的计算资源。为了解决这一问题,“基础模型”(foundation model)的概念应运而生——即在大规模数据集上预训练通用模型,以便将其知识迁移到各种下游任务中【4】。例如,预训练于 ImageNet【5】上的 ResNet 系列已成为图像分类【2】、目标识别【6】等视觉任务的重要基石。 自然语言处理领域也经历了类似的发展,从 Transformer【7】、BERT【8】到 GPT-2【9】与 GPT-3【10】,均在各自的单模态任务中取得卓越表现,但它们本质上缺乏对多模态信息的感知与推理能力。 如图 1 所示,对比式语言-图像预训练(contrastive language-image pretraining)范式的出现【11】彻底重塑了视觉-语言学习格局。Radford 等人提出的 CLIP【11】模型利用 4 亿网页爬取的图文对进行对比学习:将语义匹配的图文拉近、不匹配的拉远,从而实现了跨任务的强大零样本泛化能力,覆盖图像分类【11】、目标检测【12】、视频检索【13】等任务。后续研究通过扩大与去噪预训练数据集【14】【15】【16】、探索多样的预训练策略【17】【18】、引入多语言数据【19】【20】【21】,进一步增强了 VLM 的能力。 尽管 VLM 在通用任务上表现出色,但其预训练知识在特定领域的下游任务上泛化能力有限。若无合适的迁移方式,预训练的 VLM 往往难以处理分布外(OOD)数据,如遥感图像【22】或精细类别图像【23】【24】。传统的“预训练-微调”范式仍适用,但在 VLM 中直接微调可能破坏其对齐的视觉-语言表示,导致性能下降【25】【26】【27】。 因此,如何以尽可能低的计算与标注成本将 VLM 中的知识优雅地泛化至下游任务,已成为研究热点。考虑到 VLM 的多模态特性,研究者们尝试将单模态领域成熟的迁移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知识蒸馏【30】,扩展应用于 VLM【26】【31】【32】【33】。借助其庞大的通识知识,VLM 正逐步成为“任务无关型”求解器,在无监督领域适应(UDA)【34】【35】【36】、领域泛化(DG)【37】【38】【39】、测试时自适应(TTA)【40】【41】【42】等迁移学习场景中设立了新基线。 面对这种趋势,我们提出了关键问题:在 VLM 时代,知识迁移有何不同?

为此,本文对 VLM 的泛化能力展开系统文献综述。


研究动机与贡献

现有综述多聚焦于 VLM 的预训练阶段,如模型结构、预训练目标与数据集【43】【44】【45】。虽然部分工作提及了迁移学习【43】,但其覆盖面有限,尤其缺乏对不同迁移设定之间差异的探讨。本文是首个专注于 VLM 迁移与泛化能力 的系统综述。我们以主流的双分支架构(如 CLIP【11】)为基础,识别并归类迁移的关键模块,具体如下: 1. Prompt-based 方法:仅调节文本提示嵌入以控制模型行为【31】【32】【40】; 1. Parameter-based 方法:有策略地更新预训练参数【46】【47】【48】,或通过知识蒸馏引入新参数【33】【38】【39】; 1. Feature-based 方法:对提取到的特征进行后处理,如引入可学习模块【26】【35】或构建免训练缓存机制【27】【41】【49】。

我们结合迁移学习研究中的经典设定【4】【50】【51】,重新审视这些 VLM 方法,并分析其在不同迁移设定中的特性差异。随后,我们系统汇总了适用于各类迁移任务的主流基准数据集,并提供基于模型结构与方法设计的性能比较。


同时,本文还涵盖了 VLM 与多模态大语言模型(MLLM)之间的融合。近年来,大语言模型(LLM)取得突破性进展【52】【53】【54】【55】,将对齐语言的视觉编码器(如 CLIP)与 LLM 相连接,并以大规模多模态指令数据进行训练,构建出视觉-语言大模型(MLLM)。这些模型在视频理解、视觉问答、图像字幕、分割与识别等任务中展现出强大的泛化能力【18】【56】【57】【58】。 作为另一类通用视觉-语言模型,本文对 MLLM 的基本构建框架、模型类型、使用的预训练数据与目标,以及其在多任务中的表现进行全面总结,并呈现当前该领域的研究图谱(如图 3 所示)。


综述贡献总结如下:

系统回顾 VLM 泛化研究进展:涵盖无监督领域适应、领域泛化、小样本适应、测试时自适应等迁移学习任务;据我们所知,这是首个专注于 VLM 泛化的综述工作。 1. 提出三类关键迁移方法分类:Prompt-based、Parameter-based 与 Feature-based,并在各类迁移设定下深入分析其技术细节与适用场景。 1. 收集主流评测基准并对比方法性能:从泛化设定、模型结构与设计角度出发,提供公平、系统的性能评估。 1. 引入并分析 MLLM 的发展与代表模型:总结其结构、组成模块、泛化能力、训练数据与目标,为理解视觉-语言研究的前沿进展提供参考。 1. 提出当前挑战与未来方向:识别现阶段研究瓶颈,并展望可行的研究路径与潜力。


文章结构如下:

第 2 节介绍 VLM 相关基础知识及所涉及的迁移学习设定; * 第 3 节讨论 Prompt-based 方法,分为训练时提示(3.1)与测试时提示(3.2); * 第 4 节介绍 Parameter-based 方法,包括参数微调(4.1)与知识蒸馏(4.2); * 第 5 节探讨 Feature-based 方法,包括可学习适配器(5.1)与免训练缓存机制(5.2); * 第 6 节总结主流基准与方法性能评估; * 第 7 节介绍现代 LLM 如何增强与泛化 VLM,构成 MLLM; * 第 8 节总结当前进展并讨论未来的研究方向。

成为VIP会员查看完整内容
27

近年来,以大模型为代表的新一代人工智能技术迎来爆发式增长,成为推动产业升级、促进经济发展和引领社会进步的重要力量。智能体作为大模型应用的主要形态,高度贴合日益复杂的提质增效需求。加快推动智能体技术应用将成为推进人工智能与实体经济深度融合的重要抓手,是推动我国人工智能产业加速进入“模型研发-应用盈利-反哺科研”正向循环的可行路径。

2025年6月22日,中国信息通信研究院(简称“中国信通院”)人工智能研究所在华为开发者大会2025上联合发布了《智能体技术和应用研究报告(2025年)》,中国信通院人工智能研究所平台与工程化部主任曹峰对报告进行了深入解读。 图片

成为VIP会员查看完整内容
28

在每一章的开头,你会在右侧页边栏找到一个小的图表,旨在让你了解该场景发生时世界的情况。若要了解这些数字的含义的更详细解释,以及我们方法的更多更详细的信息,请访问ai-2027.com。   我们预测,未来十年的超级人工智能的影响将是巨大的,将超过工业革命的影响。OpenAI、谷歌DeepMind和Anthropic的首席执行官都预测,通用人工智能将在未来5年内到来。萨姆·奥特曼表示,OpenAI的目标是“真正意义上的超级智能”和“光辉的未来。”人们很容易将其视为只是炒作。这将是严重的错误——它不只是炒作。我们并不想自己炒作人工智能,但我们认为超级智能在本世纪末到来是极有可能的。   我们不会在所有事情上都正确——这大都是猜测。但在整个项目过程中,我们进行了大量的背景研究、专家访谈和趋势外推,以做出我们能做出的最明智的猜测。此外,我们的团队在预测方面有着优异的记录,尤其是在人工智能方面。首席作者DanielKokotajlo在4年前撰写了一个类似的情景,名为“2026年将是什么样子”,其时效性出奇地好,而EliLifland是一位顶尖的竞赛预测家。   如果我们正处于超级智能的边缘,社会远未做好准备。很少有人甚至试图阐述通过超级智能发展的任何可行路径。我们撰写《AI2027》就是为了填补这一空白,提供急需的具体细节。我们希望看到世界上有更多这样的工作,尤其是来自不同意我们观点的人们。我们希望通过这样做,引发关于我们走向何方以及如何驶向积极未来的广泛讨论。   我们通过反复问自己“接下来会发生什么”来撰写这个场景。我们从当前时代开始,撰写第一个时期(直到2025年中期),然后是下一个时期,直到达到结局。我们并没有试图达到任何特定的结局。然后我们放弃了它,重新开始,很多次,直到我们得到了一个我们认为可信的完成场景。在我们完成第一个结局——赛车结局之后,我们写了一个新的替代分支,因为我们还想描绘一种更充满希望的方式,在大致相同的前提条件下结束。

成为VIP会员查看完整内容
27

本文介绍了我们在具身人工智能(Embodied AI)智能体方面的研究,这些智能体以视觉、虚拟或物理形式体现,从而能够更自然地与用户及其环境交互。这类智能体包括虚拟化身、可穿戴设备以及机器人,旨在具备感知、学习与行动的能力,使其在学习与交互方式上更接近人类,相比于非具身智能体更具自然性与适应性。 我们提出,世界模型(World Models)的构建是具身智能体实现推理与规划的核心,能够帮助智能体理解并预测其环境、把握用户意图与社会语境,从而提升其自主完成复杂任务的能力。世界建模涵盖了多模态感知的整合、基于推理的规划与控制、以及记忆机制,共同构建对物理世界的全面理解。除物理世界外,我们还提出应学习用户的心理世界模型(Mental World Model),以实现更优的人机协作。 虚拟具身智能体正在变革治疗与娱乐等领域,通过提供具情感理解能力的交互体验。可穿戴智能体(如集成于 AI 眼镜中)有望实现实时辅助与个性化体验,而机器人智能体则可应对劳动力短缺,在非结构化环境中执行任务。本文不仅探讨了具身智能体面临的技术挑战及我们的解决策略,还强调了在这些智能体逐步融入日常生活过程中对伦理问题的重视,尤其是关于隐私保护拟人化的议题。 未来的研究方向包括:具身智能体的学习能力、多智能体协作与人机互动的提升、社会智能的增强,以及在设计过程中确保伦理实践。通过应对上述挑战,具身智能体有望革新人机交互方式,使其更直观、更能响应人类需求。本文综述了我们在具身智能体研究方面的现状与未来方向,旨在推动其潜力的全面释放,为人类生活带来深远影响。

1 引言

具身人工智能(Embodied AI)智能体是一类具备视觉、虚拟或物理形式的人工智能系统,使其能够与用户及其物理或数字环境进行学习与交互。这些具身 AI 系统必须具备在环境中进行有意义感知与行动的能力,因此也就要求它们对所处物理世界有深入理解。相比之下,仅存在于网络中的无形智能体并不具备具身性,而那些依靠遥控或预编程指令运行的机器人或无人机,也缺乏真正智能体所需的自主性与适应性。 可穿戴设备的独特之处在于:它们集成了能够感知物理世界并执行动作的 AI 系统,这种“感知—行动”的协同机制使得从用户视角出发,可穿戴智能体也具备具身性,模糊了人机边界。正如哲学家梅洛-庞蒂(Maurice Merleau-Ponty, 1945)所言:“我不是在我的身体里,我就是我的身体”,这强调了身体并非仅是思想的容器,而是存在本身不可分割的一部分。这一观点与具身智能体的理念密切相关,即智能体的身体与其环境共同构成其认知过程的重要组成。基于此,我们提出一个具身智能体框架,核心在于世界建模(World Modeling),使智能体能够以更复杂、更类人的方式推理与交互。 具身性在当前 AI 与机器人研究中主要有两个作用:(1)物理交互:使 AI 系统能够通过直接动作(如机器人智能体)或感知环境(如可穿戴智能体)与物理世界互动;(2)增强人机交互:研究表明,具身智能体能够提升用户的信任感(Winata et al., 2017; Fung et al., 2018; Shridhar et al., 2024)。此外,具身智能体还有一个日益受到关注的潜力方向:(3)类人的学习与发展方式——通过模拟人类的丰富感官体验,从而实现更直觉、类人的学习过程(Dupoux, 2018; Radosavovic et al., 2023)。 构建一个能自主学习、能够与人类和现实世界互动,并在个人与职业生活中提供帮助的 AI 系统,始终是人工智能发展的目标。从最初基于规则的聊天机器人,到 AI 客服,再到虚拟助手,每一代 AI 助手都具备更强的能力。线上 AI 智能体的出现是这一演化的最新阶段。与此同时,AI 的具身化也展现出多样形态,从具身对话代理(Cassell, 2001),到可穿戴设备(Alsuradi et al., 2024)、机器人(Mon-Williams et al., 2025),再到类人机器人(Cao, 2024)。每种具身形式面向不同的任务与应用场景,具备各自独特的能力需求,同时也共享一些核心能力。 不同于以往的 AI 助手,现代 AI 智能体更具自主性,能自主规划多步骤任务,决定所需的外部资源,并判断需协作的其他智能体,能够根据用户显式的请求或上下文隐含的信息理解用户需求。具身智能体还需为用户执行或协助用户执行实际动作,这对其推理与规划能力提出了更高要求。这种“感知世界并据此规划行动”的能力,正是世界建模的核心(LeCun, 2022)。 此外,智能体应能够与用户进行对话,以便在需求不明确或情境发生变化时澄清意图或确认信息。未来,智能体还需能与多个用户及其他智能体进行协作交互。这要求人机互动具备表达性、社会敏感性与情境适应性——换言之,智能体需要理解用户的“心理世界模型(mental world model)”。为支撑物理与心理世界的建模、推理与规划,具身智能体还需具备短期与长期记忆能力。 AI 助手演化为 AI 智能体,很大程度上得益于大语言模型(LLM)与视觉语言模型(VLM)的进展。开发者通过对 LLM 和 VLM 进行提示调控(prompting),构建了具身化的虚拟智能体,如虚拟化身(Cherakara et al., 2023)、智能眼镜、虚拟现实设备(Pan et al., 2024)以及机器人平台(Brohan et al., 2023;Tong et al., 2024)。这些 LLM 不仅在自然语言理解与生成方面表现优异,经过 RLHF 微调后,还具备了更强的指令遵循能力,甚至展现出零样本完成多任务的能力,无需专门为某一任务设计训练。伴随全球数百万用户的广泛使用,从最初的新奇感迅速转向对“能够辅助完成任何任务”的现实期待。 智能眼镜(如 Meta Glasses)使用户可以通过设备摄像头获取视觉输入、通过麦克风提供语音输入,并接入 AI 智能体(如 Meta Multimodal AI),尽管目前尚未能充分获取环境中的听觉线索。LLMs 与 VLMs 被用于实现感知、推理与规划功能,推动了情境感知 AI(Contextual AI)的发展(Erdogan et al., 2025)。VLMs 可通过指令调优实现逐步规划(Kim et al., 2024),而机器人也可在 LLM 提示下执行任务(Ahn et al., 2022)。 然而,生成式模型也存在一个核心缺陷,即其模型规模效率低下。它们擅长生成下一个 token 或像素,适用于创意任务,但往往包含大量冗余细节而缺失对推理与规划而言至关重要的信息。而推理与规划能力正是 AI 智能体的根本。因此,为提高具身 AI 的准确性与效率,我们提出采用一种基于多模态感知进行推理与行动预测的世界建模方法。 本文首先综述不同类型智能体及其应用场景,接着介绍我们为具身智能体提出的世界建模框架,其中包括感知机制、物理与心理世界建模、记忆系统、以及行动与控制策略。我们讨论了基于生成式模型的世界建模方法,同时也探讨了更高效且更可信的预测式世界模型(predictive world models)替代方案。接下来,我们将分别介绍三类具身智能体:(1)虚拟具身智能体;(2)可穿戴智能体;(3)机器人智能体,并在每一部分中列举现有评测基准与未来研究方向。最后,我们描绘了具身学习的未来愿景,以及由多个智能体协同合作的“智能体家族(Family of Agents)”。文章最后还探讨了两个关键伦理问题:隐私与安全,以及拟人化(Anthropomorphism)

成为VIP会员查看完整内容
26

战场攻击目标的选择是最关键的决策之一。该决策问题被表述为武器目标分配(WTA)问题。既往研究中,动态规划、线性规划、元启发式及启发式方法均被用于求解此问题。然而,先前研究存在模型过度简化、计算负担过重、对突发事件适应性不足以及问题规模变化需重新计算等局限。为突破这些限制,本研究旨在运用强化学习与图神经网络解决WTA问题。所提方法通过映射真实决策框架"OODA循环"(观察-调整-决策-行动)实现高度实用性。在多环境实验中,通过与现有启发式及元启发式方法对比验证了该方法的有效性。该研究为传统上仅限人类专家的战术指挥控制领域引入突破性的智能决策方法论。

图1:兵棋模拟中随机性的概念图

成为VIP会员查看完整内容
25

摘要——近年来,基于大语言模型(LLM)驱动的AI智能体展现出前所未有的智能性、灵活性与适应性,正在迅速改变人类的生产方式与生活方式。如今,智能体正经历新一轮的演化:它们不再像传统LLM那样孤立运行,而是开始与多种外部实体(如其他智能体与工具)进行通信,以协同完成更复杂的任务。在这一趋势下,智能体通信被视为未来AI生态系统的基础支柱,许多组织也在近几个月内密集推出相关通信协议(如Anthropic的MCP和Google的A2A)。然而,这一新兴领域也暴露出显著的安全隐患,可能对现实场景造成严重破坏。为帮助研究者迅速把握这一前沿方向,并促进未来智能体通信的发展,本文对智能体通信的安全问题进行了系统性综述。具体而言,我们首先明确界定了“智能体通信”的概念,并将其完整生命周期划分为三个阶段:用户-智能体交互、智能体-智能体通信以及智能体-环境通信。随后,我们针对每个通信阶段详细解析相关通信协议,并根据其通信特性剖析潜在的安全风险。在此基础上,我们总结并展望了各类安全威胁可能的防御对策。最后,本文还讨论了该领域仍待解决的关键问题与未来研究方向。 关键词:大语言模型、AI智能体、智能体通信、攻击与安全

一、引言

大语言模型(LLM)的出现引发了人工智能(AI)领域的革命性进展,在理解复杂任务方面展现出前所未有的能力【308】。更重要的是,LLM极大推动了人类所期望的理想AI形式——智能体(agent)的发展。与主要扮演聊天机器人的LLM不同,智能体具备更全面的能力(如感知、交互、推理与执行),使其能够独立完成现实世界中的任务。例如,当用户希望制定旅行计划时,LLM只能以文本形式提供最佳方案,而智能体则可以将方案转化为实际行动,如查询天气、购买机票和预订酒店。智能体大大加速了企业智能化转型的进程,其市场规模预计将以每年46%的速度增长【222】。可以预见,智能体将颠覆现代社会的生产与生活模式,深刻改变未来商业格局。因此,发展和推广智能体已成为各大国家和头部科技企业的战略重点。 当前,智能体正朝着面向特定领域的定制化实体方向演进,即针对特定场景和任务进行专门设计。在这一背景下,如图1所示,许多任务往往需要多个智能体协作完成,这些智能体可能分布于全球互联网上。在这种条件下,智能体通信成为未来AI生态系统的基础,能够支持智能体发现具备特定能力的其他智能体、访问外部知识、分派任务及完成其他交互。基于这一庞大的通信需求,越来越多的研究社区和企业开始抢占先机,投身于智能体通信的发展。 2024年11月,Anthropic提出了模型上下文协议(Model Context Protocol,MCP)【16】,这是一个通用协议,允许智能体调用外部环境,如数据集、工具和API。MCP在近几个月内迅速引起广泛关注,截至目前,已有数百家企业宣布接入MCP,包括OpenAI【203】、Google【87】、Microsoft【53】、Amazon【21】、阿里巴巴【10】和腾讯【251】,MCP软件包的每周下载量已超过300万次【17】。2025年4月,Google又提出了Agent to Agent协议(A2A)【218】,该协议支持智能体之间的无缝通信与协作。自发布以来,A2A获得了包括Microsoft【188】、Atlassian【149】和PayPal【229】等多家企业的广泛支持。由此可见,智能体通信的突破正带来迅速且深远的变革,并将成为AI生态系统不可或缺的一部分。 然而,智能体通信的迅猛发展也带来了复杂的安全风险,可能对AI生态系统造成严重破坏。例如,不同组织间的智能体协作显著扩大了攻击面,可能引发严重的安全威胁,包括但不限于隐私泄露、智能体伪造、智能体欺凌以及拒绝服务(DoS)攻击。由于智能体通信研究尚处于初期阶段,急需对整个通信生命周期中存在的安全问题进行系统性回顾。顺应这一趋势,本文旨在对现有的智能体通信技术进行全面梳理,分析其中的安全风险,并探讨相应的防御对策。我们相信本研究将对广泛读者群体有所帮助,无论是投身于智能体研发的科研人员,还是刚入门的AI初学者。 本文的主要贡献如下: * 首次系统性综述智能体通信:我们首次提出智能体通信的定义,并按通信对象将其划分为三个阶段:用户-智能体交互、智能体-智能体通信、智能体-环境通信。该分类覆盖了智能体通信的完整生命周期,同一阶段的通信协议通常具有相似的攻击面,有助于后续研究更方便地进行分析与评估。 * 深入分析智能体通信发展过程中的安全风险:我们讨论了已发现的攻击方式以及尚未揭示的潜在威胁。分析表明,用户-智能体交互主要面临来自恶意或错误用户输入的威胁,智能体之间的通信则易受到来自其他智能体或中间人的攻击,而智能体-环境通信则可能被受损的外部工具和资源所影响。 * 详细探讨有针对性的防御对策:我们指出了针对已识别安全风险的可能防护方向。例如,用户-智能体交互需要有效过滤多模态输入;智能体-智能体通信需要强大的机制来监控、归档、审计并量化协作中行为的责任;智能体-环境通信则应依赖于对外部环境中“中毒”内容的强力检测机制。 * 最后讨论开放问题与未来研究方向:我们不仅指出了急需发展的防护技术,还强调相关法律与监管体系亦需尽快完善。只有技术和法规双轮驱动,才能切实保障智能体通信在现实中的安全性。

文章结构

如图2所示,本文的组织结构如下:第二节对比相关综述,突出本文的创新点;第三节介绍研究所需的基础知识;第四节提出智能体通信的定义与分类;第五至第七节依次介绍用户-智能体交互、智能体-智能体通信、智能体-环境通信中的协议、安全风险及防御对策;第八节讨论该领域的开放问题与未来研究方向;第九节为本文的总结。

成为VIP会员查看完整内容
25

摘要

在伊拉克和阿富汗的冲突中,美国的“死神”和“捕食者”无人机为美军提供了显著优势,因为它们能够长时间滞空、在冲突区外远程操控(从而避免人员损失),并降低了近期军事行动的总成本。然而,这些特别复杂系统的高生产和维护成本,阻碍了其真正变革战争形态的潜力,尤其是在其仅用于无争议制空权的特殊条件下时。

土耳其“拜拉克塔尔”TB2无人机的出现,将一套复杂的空中监视和打击系统的采购与运用成本降低了约六倍,使得阿塞拜疆或乌克兰等较小国家在财政上得以负担。阿塞拜疆部队在纳戈尔诺-卡拉巴赫冲突中成功部署这些无人机,促使包括乌克兰在内的其他国家开始采购。随后,在俄罗斯入侵乌克兰的初期阶段,这些系统取得了与大型无人机相当的成功率。

然而,无人机在俄乌战场的密集使用促使俄军调整其对抗此类无人机的措施,这反过来又迫使乌军采用新战术。在日益增长的成本压力和不断增加的补充需求下,乌军已转向在前线作战中部署越来越多的小型无人机,而将大型无人机保留用于俄防空火力活动较弱的区域。

当前,乌克兰战争可被描述为一场消耗战,双方都遭受了包括无人机在内的巨大军事装备损失。一些研究显示,乌方每月损失的无人机数量高达10,000架(Watling & Reynolds, 2023)。即便如此,据报道,无人机需担负摧毁或损坏约60-70%俄军装备的责任(Watling & Reynolds, 2025)。

本文旨在提炼关键经验教训和建议,不仅针对军事领域,也面向大西洋两岸国家民用部门的决策者。虽然不追求详尽无遗,但本文提供了一份中期研究,同系列后续研究必将跟进。

1.现代战场无人机的大规模生产必须有强大的生态系统支撑​​

大规模、持续性的无人机生产对现代战争至关重要,并需要一个灵活、有韧性的生态系统。乌克兰的经验凸显了持续创新、多样化生产策略以及快速融合新兴技术的重要性。无人机,特别是第一视角(FPV)机型,相较于传统武器系统已证明其极高的成本效益,可显著增强战术优势。发展蓬勃的无人机产业需要采取整体方法——包括教育、有利的立法、公私协作——确保创新想法能够有效地转化为军事能力。

2.有效防御需机动、分层的反无人机措施​​

乌克兰战争突显了一种机动、分层的反无人机防御体系的至关重要性,它须能适应现代无人机带来的不断演变的威胁。整合各类传感器、干扰器和武器——通过人工智能管理软件进行协调——对于应对战场上无人机不断增强的效力是必不可少的。

3.小型无人机的信息输入强大软件后可提供对战场态势的精细理解​​

装备先进软件的小型无人机正在革新对战场态势的理解,产生细致的实时视角,从而改变军事行动。诸如“元星座”(MetaConstellation)等系统整合来自众多来源的数据,以提供全面的战术图景,从而能够做出更明智、更及时的决策。 ​​ 4.无人机的多功能性和适应性可带来切实的战场优势​​

无人机的多功能性和适应性——特别是第一视角(FPV)和自组装改型(DIY)——通过定制化、先进技术和快速适应各种任务与作战环境,在战场上提供了显著优势。“空中航空母舰式”无人机和“蜘蛛网”网络等创新进一步扩展了其能力和作战范围。 ​​ 5.无人机攻防措施间的技术竞赛要求不断创新​​

无人机战争中的技术竞赛要求不断进行创新,因为有限续航时间和自主系统复杂性构成了显著挑战。乌克兰战场的经验强调了快速适应和大规模应用新技术以保持竞争优势的必要性。

图:反无人机系统

成为VIP会员查看完整内容
25

多模态推理的最新进展在很大程度上得益于文本链式思维(Chain-of-Thought,CoT)范式的推动,该范式主张模型在语言中进行推理。然而,这种以文本为中心的方法将视觉仅视为静态的初始上下文,导致了丰富感知数据与离散符号思维之间的根本语义鸿沟。人类认知往往超越语言,将视觉作为一种动态的心理画板加以利用。而类似的演化趋势也正在人工智能领域显现,标志着一个范式的根本性转变:从“思考图像”的模型迈向真正能够“借图思考”的模型。 这一新兴范式的核心特征在于模型将视觉信息作为思维过程中间步骤加以利用,从而将视觉从被动输入转变为可操控的动态认知工作空间。在本综述中,我们沿着智能不断增强认知自主性的演进路径,对该趋势进行了梳理,这一演进历程可分为三个关键阶段:从外部工具探索、程序化操作,到内在想象。 为了系统化这一快速发展的研究领域,我们的综述提出了四项主要贡献:(1)确立“借图思考”(Thinking with Images)范式的基本原理及其三阶段框架;(2)全面回顾构成该发展路线图中各阶段核心方法的代表性工作;(3)分析评估基准和关键应用的现状与变革趋势;(4)指出当前面临的主要挑战,并展望未来值得关注的发展方向。通过这一结构化的综述,我们旨在为构建更强大、更贴近人类思维方式的多模态人工智能提供清晰的研究路线图。

1 引言

大型多模态模型(Large Multimodal Models, LMMs)近年来标志着人工智能领域的一个关键转折点,展现出在理解和生成多模态内容方面的显著成果 [Team et al., 2023; Liu et al., 2024a; Wang et al., 2024a; Chen et al., 2025a]。这一进展从根本上重塑了 AI 跨越视觉感知与语言抽象之间认知鸿沟的能力。而促成这一“第一波”变革的核心推动力之一,便是语言中心化的推理机制,尤其是链式思维(Chain-of-Thought, CoT)范式的引入 [Wei et al., 2022; Kojima et al., 2022]。通过将复杂问题分解为一系列文本化的推理步骤,CoT 大幅提升了 LMM 在多种多模态任务上的表现,包括视觉问答 [Zhang et al., 2023a; He et al., 2025a; Shen et al., 2025]、视觉支撑的数学问题求解 [Lu et al., 2023] 和复杂叙事生成 [Wu et al., 2024a] 等。 在这一既定范式中,也即我们称之为“思考图像”(Thinking about Images)的方式中,视觉模态主要被用作静态的初始上下文:LMM 首先“看到”一张图像,将其编码为一组固定的特征向量,然后仅在语言域中开展推理。图像是前提,但语言是唯一的思维媒介。尽管该文本中心化方法已颇具成效,但它暴露了一个根本性局限:即视觉世界丰富、连续且常常模糊不清的本质,与语言的离散、符号结构之间存在语义鸿沟 [Li et al., 2022]。图像在初始阶段的一次性编码将其扁平化为静态表示,形成了一个关键的信息瓶颈。因此,当任务需要更深层、递归式视觉参与时,如复杂物理推理 [Balazadeh et al., 2024]、精确空间操作 [Gupta and Kembhavi, 2023],或交互环境中的长程规划 [Pahuja et al., 2025; Wang et al., 2025a],模型往往难以胜任。 如今,一场新的多模态推理变革正悄然兴起。模型正在从仅用文本“思考图像”,转向真正能够“借图思考”的新范式。这标志着视觉在认知过程中的角色发生根本转变:从被动、固定的输入,变为动态、可操控的认知工作空间。正如人类使用草图本进行思维一样,模型如今也开始被赋予能力,能够主动查询、修改,甚至生成新的视觉信息,作为推理过程中的中间步骤。这种“视觉链式思维”(visual chain of thought)的能力,不再是对文本 CoT 的简单扩展,而是一种朝向更整体、更类人认知形态的革命性飞跃 [Larkin and Simon, 1987]。我们认为,这一新兴范式——“借图思考”(Thinking with Images),代表了多模态 AI 的下一前沿。其核心原则在于:将视觉表征作为可操控、可验证的思维形式,使模型能够在认知过程中主动观察、操纵并以视觉信息为中介进行推理。 本综述是首个对这一新兴且快速发展的研究方向进行全面、系统梳理的工作。为了组织这一不断演化的研究图景,我们提出了一个概念性框架,描绘该范式在认知自主性不断增强过程中的三阶段演进路径。这三个阶段反映了模型实现视觉推理目标的不同机制(即“如何做”)以及推理动机(即“为何做”):从作为“指挥者”调度外部视觉工具、演进为“视觉程序员”以代码实现定制化视觉操作,最终成长为能够进行内在想象与模拟的“视觉思考者”。第二节将详细阐述这一三阶段演进路径。 随着各阶段方法的不断涌现,一个关键问题也随之而来,而本综述正旨在解答这一问题: 大型多模态模型如何通过认知自主性不断增强的三个阶段,演进至“借图思考”的新范式?该范式又由哪些核心方法、评估策略、应用场景和挑战构成?

本综述围绕该问题进行系统组织,并遵循图 1 所示的分类结构。我们将在第 2 节建立该范式的基础,随后在第 3、4、5 节分别探讨三个阶段所涉及的具体方法。在第 6 节,我们回顾相关评估基准和实现框架,第 7 节探讨该范式的关键应用,第 8 节则总结面临的挑战并展望未来方向。通过清晰的分类体系与前瞻性视角,我们希望不仅总结已有知识,也为构建更强大、更直观、真正多模态的 AI 激发未来研究灵感。


1.1 本综述的定位

与已有综述的差异

早期的综述为理解 LMM 奠定了基础,但大多持有一个共同视角:视觉主要作为上下文输入,而语言仍是推理的主导载体。诸如 Yin et al. [2024]、Zhang et al. [2024c]、Wu et al. [2023a] 等面向通用 LMM 的综述,主要聚焦于架构、预训练语料和评估协议,对模型在图像编码后如何利用视觉信息的探讨则相对有限。Xie et al. [2024a] 将分析拓展至智能体场景,但仍以工具调用为中心,缺乏对内部视觉认知机制的关注。而在数学推理 [Yan et al., 2024]、幻觉检测 [Liu et al., 2024c]、评测基准 [Li et al., 2025d] 等任务专向综述中,虽涉及更具体任务细节,但仍延续了文本中心化的框架。近期已有部分工作开始讨论显式推理机制:如 Wang et al. [2025g] 回顾了多模态 CoT 提示设计,Li et al. [2025e] 探讨了“感知–推理–规划”流程;但即便如此,视觉模态仍然是被动的:模型通常只是对图像进行一次性描述或标注,随后继续在语言域中进行思考。 我们的立场

本综述聚焦于范式的转变:从“思考图像”到“借图思考”。我们首次系统性地分类和整理了促成这一演进的机制,其中图像从一个静态前提转变为一个动态、可操作的认知空间。我们按照认知自主性的提升轨迹来组织综述内容,阐明模型如何从(1)调度工具进行探索、到(2)以编程方式主动生成视觉分析,最终迈向(3)在封闭认知环中进行内在视觉想象。我们相信,这一发展将从根本上重新定义推理步骤的结构、可验证证据的标准,以及如何衡量真正的视觉智能。

成为VIP会员查看完整内容
23

根据埃利奥特·科恩(Eliot Cohen)的军事革命认知框架,俄乌战争中无人机系统(UAS)的广泛运用代表着作战方式的根本性变革——因其展现了新型武器、新型组织形态与新型作战模式三者的交汇。这种变革深刻体现在部队筹划与执行战役、作战情报融合及指挥控制模式的转型中,尤其对战争战役层级产生重大影响。

随着师级与军级指挥官如今必须应对持续监视能力(其剥夺了传统作战突袭优势)同时运用纵深打击与战役塑造新能力,乌俄两军的经验为战役指挥官适应新现实提供了关键启示。无人机系统的普及已根本性改变作战环境,形成近乎持续的战场监控态势,对传统军事行动理念构成严峻挑战。

本文依据新兴实证阐明无人机系统如何体现新型武器、组织形态与战争范式,通过俄乌战争视角分析其对战役作战的变革性影响。继而探讨此次革命对美国陆军战役层级的战略意义,并就其条令体系、组织结构与指挥官培养提出具体建议,以保障其在未来冲突中保持优势。

无人机系统作为新型武器:变革作战能力​​

无人机应用的演进体现了其如何改变战役作战。在2024年初阿夫季夫卡战役中,乌克兰军级指挥官每周在整个作战区域部署无人机系统,这些系统不仅是战术资产,更是战役设计的组成部分。它们实现了作战纵深的持续监视,根本性改变了部队规划与执行行动的方式。更突出的是,无人机系统与战役火力结合创造了纵深打击和战役态势塑造的新可能性,使指挥官能跨多域多距离同步影响战场。

乌克兰军队在改造商用无人机技术方面展现出显著创新,进一步延伸了作战影响。新美国安全中心防务项目主任斯泰西·佩蒂约翰指出:乌军常规化使用配备热成像技术的改装商用无人机执行夜间行动,实现24小时持续监视打击能力。战役层面上,这种持续观察能力改变了指挥官理解与塑造战场的方式。

纵深打击与战役态势塑造​​。2024年4月别尔哥罗德突袭行动中,乌克兰部队协调运用超200架无人机,展示了无人机系统如何赋能战役级规模的作战行动。这些将侦察、电子战和打击任务整合的行动,根本性改变了战役规划与执行的关系。突袭迫使俄军战役指挥官调动大量资源防卫后方区域,证明无人机系统使较小规模部队能实现以往需庞大兵力才能达成的战役效果。

乌克兰军队开创了运用无人机实施战术打击和战场态势塑造的创新方式,特别是通过第一人称视角(FPV)无人机与巡飞弹的整合运用。虽然这些系统射程不及典型纵深打击武器,但对其作战半径内的高价值目标极为有效。乌军指挥官利用系统低成本高精度特性,发展了"第一人称视角无人机实时侦察定位+巡飞弹精确打击装甲/炮兵/指挥所"等新战术理念。

​​表.俄乌战争中无人机系统符合科恩军事革命标准的应用​​

俄乌战争中的军事变革(RMA)标准对照表

军事变革标准 俄乌战争中的证据
新武器 • 无人机系统(UAS)类型空前扩散和多样化
• 快速的技术进步(如:波伯重型第一人称视角轰炸机、沙希德-136)
• 人工智能和机器学习的融合
• 易获取且具成本效益
• 空中力量能力的扩散化
新组织 • 乌克兰无人系统部队的创建
• 无人机操作员新颖的招募和培训方法
• 专业无人机团队的组建(飞行员、爆炸物处理专家、维护人员)
• 民用无人机操作教育的整合
• 俄罗斯提出的"以无人系统为中心"的旅级概念
新的作战方式 • 战场在垂直和水平方向上的扩展
• 新战术(如:无人机群、无人机编队)
• 与传统武器系统的整合
• 决策和指挥结构的变化
• 对军队和公众认知的心理影响
• 战争经济计算的变化
• 新反无人机战略的发展

实施持续高精度战术打击的能力,根本性改变了乌克兰指挥官准备与掌控战场的方式。通过系统性削弱俄军战斗力并破坏其行动,乌军得以创造决定性机动与反击机会。这种战术创新产生了战役级影响,使乌军能在战争各阶段夺取主动权并塑造有利战场态势。但需强调:这类短程系统不能替代真正的纵深打击能力(如"沙希德"等远程无人机系统可在敌后深远区域实施打击),而是作为补充能力提升乌克兰军队在战术和战役层级的整体作战效能。

​​与传统部队整合​​

俄乌战场指挥官开创了复杂运用无人机系统的新模式:在支持地面机动的同时实施独立纵深作战,促成无人机系统与传统部队间新型作战协同效应。这种整合超越了简单的支援关系,代表战役效果思维的新范式。通过实施持续监控并同步开展精确打击,乌军指挥官根本性改变了其战场准备与掌控方式。

例如2022年末赫尔松战役期间,乌军运用小型无人机集群识别俄军防御阵地并引导远程火力,使其在发动地面攻势前快速削弱敌军战斗力。这种无人机赋能的目标锁定能力使乌军指挥官能以空前速度和规模塑造战场态势,为成功解放该城的反击创造有利条件。

大卫·汉布林指出:无人机与炮兵的整合尤为变革性——无人机使乌军炮兵具备"致命精确度",实现实时火力修正和即时毁伤评估。此能力改变了火力支援计算法则,使指挥官能以前所未有的精度和响应速度部署炮兵。无人机与火炮的配合还使乌军能在作战纵深全域打击目标,包括俄军关键指挥所、后勤枢纽与交通线。

确保战役成功的新型组织结构​​

乌克兰无人系统部队的创建代表对此作战革命最全面的组织响应。乌军2024年组建的"无人系统部队"(USF)聚焦战役级整合与效能,区别于传统军兵种侧重战术运用的架构。该部队保留专门的战役级建制单位,既能支援军师级作战,又可实施独立纵深行动。此组织创新表明:在战役层级,无人系统需建立力量结构与指挥关系的新范式。以"配备超百万架国产第一人称视角无人机系统"支持作战为目标,该新兵种通过大规模投入无人机技术与组织建设,彰显乌军围绕无人系统重构军事体系的决心。任命被誉为首位在实战中有效部署无人机的指挥官——瓦迪姆·苏哈列夫斯基上校担任首任部队司令,印证了高层指挥对无人作战实战经验与专业能力的高度重视。

通过设立无人系统专有兵种,乌克兰无人系统部队实现了军事组织确保战役成功的根本性变革。此举加速新战术、技术与流程的研发推广,将无人能力重要性制度化,确保其融入作战规划与执行的各个环节,由此培育创新适应文化。该部队为军队如何将战术胜利转化为战役优势提供范本:通过在战役层级整合专业知识与资源,使成功战术与技术得以在全军快速推广。这种将战术创新迅速转化为战役能力的特点,正是乌克兰抵抗俄罗斯行动的关键因素。

  • ​​战役指挥部的转型​​
    为将无人系统整合至所有作战职能,乌克兰军师级参谋机构已通过流程调整来适应持续监控能力与新打击手段。情报部门创新开发处理分析无人机海量信息的新方法,作战部门则建立充分运用无人能力的规划流程。例如乌克兰战役指挥部设立专职无人机单元,负责将无人机作战纳入整体战役规划。这些单元密切协同情报与作战部门确保无人能力全力支持战役目标,同时作为全军快速推广新战术技术的渠道,确保实战经验能大规模迅速应用。乌军参谋机构还开发新流程管理无人机行动产生的海量数据,包括运用人工智能与机器学习算法处理影像、识别目标及确定情报采集优先级。这些技术创新使乌军指挥官能以空前速度理解作战环境并做出决策。

图:2024年12月20日,德事隆系统公司MK 4.8 HQ"航空探针"无人机系统在阿拉巴马州红石兵工厂测试飞行。该型号于2024年末列装陆军。

  • 采取差异化组织架构​​
    俄军在战役层面采用显著不同的组织路径:尝试将无人机能力整合进现有指挥体系,同时在更高层级保留专业无人机单位。俄乌两军路径差异凸显组织适应性对发挥新战力的重要性。俄罗斯经验印证将颠覆性技术纳入现存组织架构的挑战,强调面对革命性军事技术时组织变革的必要性——俄军试图将无人机系统嵌入传统指挥控制体系,限制了其在战役层级充分运用这些能力。

  • ​​战役作战新范式​​
    无人机整合对战役艺术的变革构成此次革命最深远影响,标志着无人化时代实施大规模作战的新认知。传统基于集中兵力达成突然性的战役机动理念,在持续监控环境下需根本性重构。乌克兰战役指挥官发展出"分布式作战+欺骗战术+效果聚合替代兵力集结"的新战法,将这些变革延伸至战术适应之外。

  • ​​战役决策机制转型​​
    无人系统时代使战役决策周期经历深刻变革。军师级指挥官如今面临"探测-打击"时间窗急剧压缩的环境,同时需处理海量实时情报。乌军创建新型决策流程:在任务式指挥框架下向低阶梯队下放重要权限,既保持战役协同性又实现战机快速捕捉。

人工智能与机器学习同无人系统的结合正重塑战役决策流程,指向无人系统自主性不断提升的未来趋势——乌克兰开发搭载AI目标识别功能的无人机即为例证。尽管引发人类监管的重要质疑,此发展对战役指挥控制影响深远:可能显著加速决策循环。例如乌军指挥官试验具备预设参数自主识别打击能力的AI无人机系统,虽人类操作员保留武器使用授权权,这些系统仍标志自主作战的重大迈进。此类系统的运用或将急剧提升作战节奏,使指挥官能捕捉瞬时战机并快速响应战场变化。

然而无人系统自主性提升也对战役指挥控制带来严峻挑战。随着系统独立行动能力增强,指挥官必须开发确保人员控制与责任追溯的新机制,这需要构建强健指挥控制架构、明确交战规则及操作员培训体系。

  • ​​战役作战半径的演进​​ 通过无人机运用,"战役作战半径"概念发生本质演变。乌军展示在以往需投入重兵的距离实施纵深打击与战场塑造的能力,更重要的是这些行动呈现战役协同新范式:无人系统使指挥官能同步影响战场多节点。此能力要求战役设计新思维,统筹无人机系统创造的机遇与脆弱性。2024年4月对距乌边境1300公里的俄鞑靼斯坦地区目标的打击,印证无人机如何扩展战役作战半径,标志指挥官能以有限资源在前所未有纵深塑造战场的革命性可能。

无人机拓展战役半径对冲突地理范围产生深远影响。随着打击距离持续延伸,前沿与后方的界限日益模糊,挑战传统战场几何概念,要求指挥官更广阔地审视作战环境。此外,无人机远程打击能力可能以意外方式升级冲突——当战场边界扩展,卷入额外行为体或引发报复的风险随之升高。指挥官必须审慎评估无人机行动的战略影响,确保其充分融入整体战役计划。

​对美国陆军战役法的影响​​

  • ​​条令演变​​
    无人机系统对作战方式的变革要求从根本上改变其战役法思路。战役条令必须演进以适应持续监控和精确打击能力的新现实。当敌军能在作战纵深保持持续观察时,传统作战安全与突袭理念需重新修订。更新后的条令应强调欺骗战术、电子战能力及在敌方监控下有效作战的能力。

尽管承认无人机系统重要性,陆军当前现代化战略仍需大幅扩展以应对此革命性的战役影响。美国防部"复制者计划"(旨在快速扩展自主能力)作为一项重要工作,必须融入战役条令与概念的全面转型。例如陆军需制定新条令概念:运用无人机系统支援纵深行动(含情报收集、目标锁定和打击任务),这些概念须解决无人系统在延伸距离和争议环境中运行的独特挑战(如通信可靠性、导航精度和生存性)。

陆军条令还需演进以应对战役作战中人工智能及自主系统日益普及的状况,要求制定明确的伦理法律框架规范系统运用,建立全面操作员培训与认证标准。条令同时需解决战役层级人机协同的挑战(含指挥控制架构、数据管理及决策支持系统)。

  • ​​指挥人才培养与教育​​
    未来军师级指挥官及参谋人员必须理解无人机系统的机遇与局限,并开发新型战役决策方法。乌克兰经验表明:在无人机密集型环境中成功的战役指挥官既需精通技术能力,又须专注战役法本质——这使得指挥人才培养成为重点领域。

职业军事教育必须发展以适应新作战环境。陆军应调整中级/高级军校课程,强化包含持续监控与精确打击能力的战役法更新内容。教育须超越技术认知,培养能将无人能力融入复杂战役设计的指挥官。例如陆军院校应在核心课程增设无人机系统模块(重点是其战役影响),包含近期冲突中无人机运用案例研究、模拟无人机密集型环境的兵棋推演,以及开发测试新战役概念的机会。

人才培养项目需更注重培育在复杂数据富集环境中有效运作的认知技能:含临界思维训练、应变能力及不确定条件下的快速决策能力。指挥官还须适应向部下授权及在分散式指挥结构中运作的模式。

  • ​​组织适应性​​
    为有效运用无人能力,美军须考量重大组织变革。尽管罗伯特·索拉诺中校等人主张效仿乌克兰建立独立无人机兵种,但陆军应审慎权衡如何在保持作战效能前提下实现跨梯队的无人能力整合。乌克兰实践印证:成功整合无人能力需创新参谋机构组织与流程,这使得战役指挥部的转型尤为迫切。陆军必须构建新型战役指挥部范式:在维持快速决策能力的同时,有效处理并响应无人机系统提供的海量信息。例如可参照乌克兰模式,在军师级指挥部设立专职无人机单元。该单元负责协同情报、火力与机动要素,统筹规划作战纵深的无人作战行动。

陆军还须投资支撑大规模无人作战的技术基础设施:含健壮通信网络、数据管理系统及能处理无人机传感器海量信息的分析工具。开发含网络安全和电子防护功能的新系统也至关重要,以确保争议环境中无人机系统的运行完整性。

适应变革的建议方案​​

  • ​​编制结构调整​​
    为应对作战方式的转型,陆军须实施多项关键举措。首先应参照乌克兰模式,在军师级建立战役层级无人作战编队。这些编队须兼具独立纵深作战与支援常规部队能力,同时开发新型战役整合方式。

美国防部"复制者计划"为快速扩展自主能力提供框架,要求陆军构建专属组织结构以高效部署系统。此框架应包含在战役层级设立类似乌克兰模式的专用无人作战中心,负责开发实施新战役概念。

陆军还应考虑组建专职"无人系统司令部",统筹规划与监管部队无人作战能力。该司令部将作为无人系统条令、训练及装备发展的核心枢纽,确保全军形成协调统一的整合路径。

  • ​​​​训练教育革新​​
    为提升官兵应对无人作战挑战的能力,陆军须全面改革各层级训练教育体系。改革内容应包括:开发聚焦无人系统战术运用的专项课程;将无人作战场景融入现役训练演习。训练项目应强化无人机与反无人机系统的实操经验,使士兵在真实作战环境中熟悉其性能边界。

战役演习需纳入真实无人威胁与战机要素,使指挥与参谋人员精熟未来作战环境。陆军应借鉴乌克兰经验:开设无人机操作员与任务规划师专项课程;建立强调技术精通与战役整合的无人作战专属训练体系。例如创设针对军师级参谋的专项训练项目,核心内容为无人系统融入战役规划与执行。该项目应包含:无人机性能边界理论授课、实装操作训练、模拟无人密集型环境复杂性的推演。

此外,陆军应运用虚拟与增强现实技术构建沉浸式训练环境,精准模拟无人作战挑战。此类环境须为指挥官提供在真实数据富集场景中实践决策与指挥控制的机会。

  • 条令体系发展​​
    加速制定反映无人作战现实的新战役条令对陆军至关重要。新条令应聚焦关键领域:无人系统融入合成兵种作战、无人密集环境指挥控制、战役层级反无人机作战、自主系统纵深运用。条令制定需直接汲取乌克兰经验,同时考量美军独特需求与能力。应特别关注人工智能与自主系统的整合——这些领域蕴含机遇与风险需审慎评估。

例如陆军需创建支持多域作战的无人系统运用框架,明确无人机如何与太空、网络及电子战能力整合,在战役纵深产生协同效应。管理无人作战产生的海量数据是条令必须应对的另一关键维度:需制定或完善数据采集、处理、利用与分发准则,明确与联合部队及多国伙伴的互操作性与数据共享标准。

  • ​​技术整合路径​​
    开发管理无人系统海量数据的新手段是陆军核心挑战,包括:创建AI赋能的无人机情报处理系统、构建健壮弹性通信网络、将无人系统整合进现役指挥控制架构、实现全梯队反无人机能力。支撑无人作战的技术体系须兼具处理复杂行动的精密性与战时维护的简易性——这对未来部队建设构成严峻挑战。

图:乌克兰无人系统部队两名士兵正校准"吸血鬼"无人机。该六旋翼飞行器可携带十五公斤弹药或其他物资。(乌克兰国家通讯社奥莱娜·胡迪亚科娃摄)

具体而言,陆军应投入先进数据分析与机器学习能力,实现无人机传感器数据的自动化处理利用。这些能力需具备战术层级的可扩展性与可部署性,使指挥官快速洞悉复杂战场态势。另一要务是优先发展能在争议环境中支撑无人作战的防干扰安全通信网络,此类网络须在降级条件下保持运行,确保指挥控制链路完整性。

结论​​

无人机驱动的作战革命要求陆军彻底变革其能力体系、组织架构与条令准则。俄乌战例证明:成功适应不仅依赖技术方案或战术创新,更需战役指挥官在战役设计、参谋机构与决策方式上的根本性转变。若未能顺应这些变革,在未来冲突中或酿成灾难性后果——潜在对手正展现出日益精密的无人机作战运用能力。

未来冲突胜负取决于陆军能否在保持传统作战能力精熟度的同时,将战役法适配无人化时代。这种转型需要精准平衡新技术运用与战役法基本原则的坚守,要求制定符合美国军事需求与战略目标的更新方案,而乌克兰经验为此提供了宝贵洞察。

正如杰奎琳·施耐德(Jacquelyn Schneider)与茱莉亚·麦克唐纳(Julia Macdonald)所论证:成功军事创新的核心不仅在于采纳新技术,更在于开发能将新能力有效融入更广军事行动的作战概念。无人机系统融入作战革命远非单纯战术或技术挑战,其要求从根本上重新思考现代军队的战役层级的作战模式。

成功驾驭此变革的能力将决定其在未来冲突中的效能。汲取俄乌战争经验并致力改革,陆军方能引领作战革命的新时代。最终,陆军必须通过条令、编制与训练的深度革新,在充分释放无人机系统潜能的同时管控其风险挑战——唯有以整体统筹推进创新,方可确保美军在未来战场的持续优势。

成为VIP会员查看完整内容
23

当前及未来可用技术正在且将持续改变作战环境的本质,这一论断无可辩驳。然而更具挑战的是识别哪些技术能使冲突一方对技术弱势对手形成决定性优势——尤其是这些技术在多大程度上影响陆地作战固有的保守性。当前冲突中涌现的技术已呈现趋势,预示着未来"算法化"战场的可能形态。本文探讨未来二十年战场的可能图景,并阐释高强度冲突中地面部队在技术饱和战场运用的挑战。(注:原文编制过程中未使用人工智能内容生成工具)

未来军事行动的实施方式将与传统模式截然不同(Turaj & Bučka, 2020)。纳戈尔诺-卡拉巴赫(Petrosyan, 2023)、乌克兰(Hrnčiar & Kompan, 2023; Zahradníček et al., 2023)及加沙地带战场已显著展现创新技术引发的变革。这些冲突特征在于:大量使用旧代军事装备,辅以一定程度现代技术支撑,实质是源起数十年前的现役武器装备与现代战场元素的结合体(Gibradze et al., 2022)。因此称其为"下一代冲突"并不恰当。同时至少就乌克兰冲突而言,俄联邦武装力量的军事艺术(尤其冲突初期)呈现高度保守与传统主义特征:其大规模部署的营级战斗群在编成、装备及战术运用上常不符合现代战场需求(Grau & Bartles, 2022)。然而这些冲突的鲜明特点是:先进军民技术(如无人机系统/UAS)正加速融入指挥控制(C2)最底层级的趋势。该趋势由技术成熟度与可用性共同驱动。通过多平台交互或与空基/天基/地基传感器-效应器的体系化协同(Turaj, 2019),此类系统效能显著提升,其应用潜力预计将持续扩展。

上述考量促使以军事专家、指挥官、理论家、学者、研究人员及政界人士为代表的广泛"军事共同体"提出关键问题:这些技术是否具备"颠覆性"潜力?会否弱化传统作战要素的认知?未来能力如何演进?能力如何在地面战场具象化?军事艺术将因此发生何种变革?更广义而言——未来陆地战场将呈现何种形态?这些问题的答案对建设现代化军队具有不可否认的价值,使其能在可预见的未来作战环境中做好充分准备并有效行动。

当前关于军事未来的启发性观点与未来学预测层出不穷。保罗·沙尔(Paul Scharre, 2019)与罗伯特·拉蒂夫(Robert H. Latiff, 2017)的著作尤具价值。两位作者近乎一致指出:未来冲突将呈现人工智能(AI)赋能系统的自主特性;作战将主要在网络空间展开;陆地领域将由"机器人军队"主导——或由士兵远程操控,或具备高度自主性。他们同时警示这些技术应用的法律伦理问题,强调缺乏深思的技术部署可能引发长期毁灭性后果。

马尔钦·戈尔尼克维奇(Marcin Górnikiewicz, 2019)对21世纪后期冲突的推演极具启发性。其研究基于"人类将在短期内取得彻底改变传统武装冲突形式与方法的技术突破"这一前提,预言包括"武器"与"武装斗争"在内的诸多概念将被重新诠释。未来作战潜力将不再由其物理组件的量化参数"乘积"所绝对定义(Varecha, 2020a)。军事力量运用的重心将发生转移:虽仍聚焦对手弱点,但未来军队的首要目标既非作用于作战潜力的物理组件,亦非精神因素,而是摧毁敌作战潜力中恢复耗时极长或具"破坏性"的组分——这类破坏将导致敌方认知功能崩溃。随着人工智能演进,通过投射虚假视觉/听觉/触觉/味觉来针对性干预人脑活动机制的认知将深化,最终引发暂时性瘫痪、精神道德休克及现实感知能力丧失。基于深度个体文化密码与潜意识决策机制的高科技预测方法,将成为预判对手决策过程的关键要素。

这意味着下一代作战域很可能是涵盖人类感知、推理与决策全维度的认知空间(Malick et al., 2022)。然而此类活动仍处萌芽阶段,因当前尚缺实现上述未来效应的能力。本研究旨在"窥探"近未来,力图描绘20年内作战环境(尤重陆地领域)的演进轮廓。

鉴于安全环境演变态势,未来二十年仍将由历史上引发军事冲突的相同因素主导。冲突诱因或包括资源争夺、经济/意识形态/社会/宗教差异及影响力角逐(《全球趋势》, 2021)。本研究预期范围内,革命性变革不会源自新技术手段或其运用理念的根本转变。但可预见的是,现代及前瞻性装备的技术性能参数将根本性改变未来军事行动的整体认知与实施方式。

传感器升级、自主化、流程自动化与人工智能的融合将产生深远影响:技术先进的效应器将更精准、互联更紧密、响应更迅捷、射程更远且威力更强。这些因素也将重塑军事艺术——当前对作战环境的认知、对普适原则法规的传统"把握"、兵力运用方式,尤其是过时的"战术、技术与规程"(TTPs),将无法匹配技术先进军队的能力需求。

方法论

技术发展与军事艺术变革之间存在明确关联性——这种关联源于创新技术在军事力量结构中的实施。本研究聚焦未来20年最可能显著影响常规武装力量的技术趋势,这些趋势将在"算法化"战场上发挥关键作用。此类预测虽具高度抽象性且非直截了当,但对充分发展军事力量能力至关重要,使其不仅能应对当前威胁,更能应对未来挑战。本研究目标与贡献在于:勾勒未来二十年作战环境发展前景,并阐明技术饱和战场中地面部队运用的挑战。

基于此,作者团队聚焦两个核心问题:

  1. 新兴技术在未来二十年将为作战环境带来何种能力?
  2. 这些技术将如何影响技术饱和战场中地面部队的运用?

研究无意分类描述制造商个体的"革命性"开发项目及技术参数对比,亦不考察技术解决方案或阐明运作原理。技术评估始终基于用户-决策者视角:这些技术将带来什么?其融入未来作战环境"战斗编成"后,如何影响未来战场陆地领域的形态?尤其关注在"算法化"环境中对地面部队行动的潜在影响。

研究采用实证-直觉方法论

  • 基于作者理论研究和分析
  • 整合科学文献、专业出版物、论文及军事 doctrinal 文件(含国内外)
  • 评估当前作战环境及其发展趋势
  • 遵循常规高强度冲突的实用原则与实践
  • 检验既有原则在"算法化"陆地环境中的有效性

数据通过理论研究方法(分析与综合)进行检验,研究发现采用比较法表述,研究问题通过启发式预测方法验证。需特别说明:本文结论仅具预测性,未经严格实证检验。

战场数字化

当今作战环境的复杂性与动态性对军事力量及其多领域发展提出更高要求。关键挑战在于建立并维持战场态势感知能力——这对作战规划与实施至关重要。随着作战环境中事件规模、强度及动态性持续增长,该能力重要性将日益凸显;未来作战将作为"跨域行动"组成部分在多个作战域同步展开。鉴于当前环境特性,信息环境的发展对态势感知能力影响最为显著,尤其关乎当前与未来作战的态势认知(Fiebich, 2020)。

"洞悉战场而隐匿己身"自古便是战场指挥官的圭臬。自18世纪末战场规模超出单兵目视范围以来,战场可视化成为指挥核心需求——催生出观察员职能体系,通过观测结果为指挥官构建战场图景(Pong, 2022)。数字化既是当代战场要素,更是未来战场基石:它赋能指挥官运用博伊德OODA循环(观察、调整、决策、行动),辅助指挥官艺术化决策作战系统部署的时机、地点、目的及预期效果。

未来陆地战场将通过多元传感器系统实现情报监视侦察(ISR)能力,覆盖任意地形气候条件下的物理环境(Rolenec et al., 2022)。陆地领域的数字化态势图景将通过宽带高速加密传输,以高清视频流形式传递指挥、遥测与影像信息。这些视频流源自地面(及地下)、低空与高空多飞行高度、多视角传感器,传感器载体不再局限于传统侦察单位、无人系统(UxS)、机载平台与卫星。陆地战场每台设备乃至单兵都将成为传感器节点——涉及威胁动态、敌军部署、友军定位等全维度战场信息将实现实时聚合、分析评估与共享。通信设备微型化、多级数据数字化、面向网络的系统架构及流程自动化,共同压缩信息流时效,使**通用作战图(COP)**能实时覆盖各作战域至最低指挥层级。技术进步促使战场全域融合:除物理域外,"交战"将同步发生于信息域与认知域;增强现实与虚拟现实支撑的交互模式将成为标准作战手段。

信息主导权将前所未有地取决于冲突何方能更快采集数据、精准分析并通过AI辅助实现安全定向分发。AI将为自主装备自动生成行动选项(Koch, 2022),实现高度冗余性,使行动去中心化乃至完全独立于人力干预。经济型传感器与海量数据处理能力的结合,预示实时信息探测、处理与共享的革命性突破。该能力将成为敌军高价值目标(HVT),亦可能构成己方力量重心(COG)(Šlebir, 2022)。当互联互通被视为决定性优势,对手必将全力破坏、降级乃至瘫痪高度互联的信息依赖系统。提供互联能力与通用作战图的信息系统防护性与韧性将成为关键制胜因素(Kompan, 2020)。敌方行动导致的任何功能中断,都可能使作战系统从互联协同网络退化为碎片化网络——无法完整及时传输可溯数据,最终削弱通用作战图效能及作战系统达成预期杀伤/非杀伤效果的能力(《全球趋势》, 2021)。因此信息系统技术演进必然与其"韧性"发展深度融合。

目标杀伤效能

未来战场焦点或将从火力转向基于指挥、控制、计算机、通信、网络、情报、监视与侦察(C5ISR)体系的信息力量。然而信息虽可提升武器系统效能与决策效率,其本身尚不足以迫使敌人屈从(至少在研究时限内如此)(Zůna, 2021)。

达成预期作战效果将依赖日趋先进的效应器。武器装备与弹药发展的核心趋势在于持续融合远程打击高速突防精确制导实体摧毁能力的增强。现代武器系统的远程打击能力已预示:指挥所(Rolenec et al., 2023)、部队集结点与后勤设施等传统认为远离敌方常规火力而相对安全的区域,正面临日益严峻的威胁(Spišák, 2022)。

除射程提升外,武器系统(尤其间接火力)的毁伤精度(Varecha, 2020b)与破坏效能(Varecha & Majchút, 2019)正实现根本性突破。此趋势源于高精度传感-打击系统的整合与火控流程自动化——基于精准目标定位信息、先进弹药末制导能力,实现预定杀伤/非杀伤效果。未来战场先进弹药与游荡弹药因微型化与动态特性将更具破坏力且更难探测。电子技术正赋予弹药新能力:可编程空爆、近炸引信及应对新兴威胁的制导功能(Breaking Defense, 2023)。此类系统数量增长、效能提升与相对普及化,不仅威胁作战体系关键节点(指挥所/通信设施/高压武器系统/后勤设施等),更将危及空中领域全单元,包括小型战术单位乃至战场单兵。

探测跟踪高速飞行弹药与反制远程微型机动平台,始终是核心挑战。定向能武器(DEW)(尤指激光武器)的持续发展可能带来革命性反制方案。预计二十年内将实现陆地战场实战部署:其射速超越现有及未来机械系统,可瘫痪物理目标及信息/通信/指挥控制系统运行。核心优势在于即时打击效应、全气象条件适用性及多目标覆盖能力。地下等难以触及目标亦在打击范围内,关键价值体现为附带损伤最小化、目标锁定高速化以及兵力需求锐减。未来DEW将与各军兵种协同部署,天基平台亦将用于干扰敌方卫星通信通道。针对单兵的地面DEW应用(如驱散人群)研究亦在推进(Valouch, 2016)。

当前军事强国正计划为步兵配装激光武器。传统枪械设计潜力趋近极限,单兵弹道防护进步催生新型单兵武器需求(Kulhánek, 2023)。未来或现微型激光武器替代反器材步枪或与轻武器协同作战(Extance, 2015)。DEW系统能有效应对无人机群代表的分布式低成本威胁,相较传统武器将具备更高精度与威力,其**"无限弹药舱"**特性尤具战略价值(Lockheed Martin, 2023)。

制约因素在于:除成本外,高度电力依赖构成显著弊端——作战损毁供电系统即致瘫痪。陆战队列装受限于尺寸重量问题(需外骨骼或无人地面载具辅助)。国际激光武器使用公约亦限制其应用:禁止造成永久性视觉损伤或不成比例伤害的作战行为(Kulhánek, 2023)。

被动防护技术亦取得重大突破:压制红外特征信号的技术、车体后方投射影像的电子伪装系统、可完美折射光线使载具隐形的智能材料,代表未来伪装技术研发方向(Wang et al., 2013)。研究时限内,全频谱电磁辐射伪装技术将为作战单元及单兵提供高可信度防护。

自主性与速度

自主性指"系统在编程设定参数内,基于获取知识与动态态势感知,无需外部干预即可按预期目标运作的能力"(《北约术语库》在线版)。在本研究语境中,外部干预特指无需大量人工输入(Rossiter, 2020)。尽管作战与保障平台系统的自主化与自动化水平持续提升(Kopuletý & Palasiewicz, 2018),人类仍将参与决策回路("人在回路"),但仅限必要最低程度。其角色在于直接实施战场指挥(下达指令或授权系统执行特定行动)与复杂作战管控(Górnikiewicz & Szczurek, 2018)。保留人类决策参与具有显著优势:相较人工智能系统,人脑仍是最高级的认知处理系统。AI系统往往脆弱且易在新情境中失误,而人类智能不仅更具鲁棒性,面对陌生动态环境时通常更灵活。尽管人类反应速度不及机器,但在应对新态势时表现更优(Foster, 2021)。

子流程自主化与自动化及人机交互减少带来多重效益:最重要的是系统能持续长时间运行,以更高精度与可靠性实现预期打击效果(如弹药自主制导),且不受压力恐惧导致的失误影响。但决策速度在此特指行动/反应执行时效。

当前及未来军事平台的全自主化具有根本重要性。典型案例是防御性反应系统自主探测消除威胁(如迫击炮弹、火箭弹、巡航导弹或反坦克火箭弹对作战基地或地面装备的攻击)。人类通过目标识别确认威胁并实施反制的传统决策回路在此失效——因反应时间过短。随着效应器与弹药技术发展趋势(特征为循环自动化、速度、杀伤力、精度、能力与模式提升,如游荡弹药与先进弹药)及陆地战场密度增加,反应时间将进一步压缩。另一例证是无人机系统(UAS):若操作员通信链路遭敌破坏,将无法授权对已识别目标实施打击(Foster, 2021)。

无人系统(UxS)的能力发展与自主性提升与人工智能(AI)进步紧密关联。当前AI已用于增强现有系统性能(如数据采集分析)。第二阶段AI将支持决策:指挥控制(C2)流程不变但显著加速,特定任务(尤其敌方行动方案分析生成比选)将实现全电子化自动处理。基于AI的解析工具(Matiz-Rojas & FernándezCamargo, 2023)与机器学习模型能结合多因素与不确定性,在更广背景下解读敌行为模式,从而更精准预测态势演进场景。军事决策将高度依赖AI——这不仅源于数据量指数级增长与处理时效要求(Hlavizna et al., 2023),更因优化作战力量运用的迫切需求。海量数据优先处理能力将成为关键里程碑。第三阶段AI将直接对抗复杂敌手系统,该能力是实现平台及全系统更高自主性的核心要素。

无人机集群作战

各类别无人机系统(UAS)正加速普及,其能力持续增强而成本不断降低。数千年来,特定时空的兵力集中始终是战场成败关键(Fuller, 1993)。该原则至今仍被北约奉为作战准则,但其在未来是否持续关键?无人机集群即为佐证:其通过复杂算法持续变换飞行轨迹的快速机动特性,可能导致防空系统软件无法处理目标模式而失效(Finlan, 2021)。微型无人机集群潜力不仅体现于数量优势,短期内它们将实现集群通信、自适应调整战术技术规程(TTPs),并随态势变化聚焦目标打击(Nohel et al., 2023)。这些系统将充当移动干扰器、移动传感器或无人系统集群,形成逻辑互联的电磁频谱"经典部队集结"假象,致使敌方徒劳干扰无实际兵力的虚假目标信号;而平台因高度自主性使传统反制手段(劫持控制权、干扰通信链路、定位追踪)失效。

无人系统(UxS)将在未来战场扮演不可替代角色:持续替代人类士兵以优化作战经济性与兵力效能。未来二十年各层级新型无人系统普及度将持续提升,能力发展聚焦多技术融合传感器(昼夜摄像机/热成像仪/声学/嗅觉/地震传感)、微型化、电磁特征抑制及协同能力增强。精密"感知规避"系统(含合作与非合作模式)的发展,将使微无人机集群能在最小间隔下密集部署战场(Višnai & Kandera, 2021),实现全地形(含建筑密集区)部署能力,在复杂多层建筑内部(Hrnčiar & Spilý, 2011)及有人驾驶空域同步运作。当前概念显示微型无人机系统将很快配装至每名美军单兵,其设计旨在增强远程威胁探测能力,确保可靠清除隐蔽目标(Pickrell, 2019)。

其核心任务持续覆盖情报监视侦察(ISR)、目标指示支援、高价值目标(HVT)猎杀、地面部队护卫与近距空中支援(CAS)、军用直升机护航(Blain, 2023)及电子战支援等传统领域,同时展现出物资/弹药/食品补给等持续保障、机动支援与反机动措施(布设雷场/开辟通路)、化生放核(CBRN)物质探测清除、爆炸物处置及人员装备洗消等新兴潜力领域。技术发展也将推动反无人机(C-UAS)防空能力显著进步,具备"猎杀"敌无人机与游荡弹药能力的无人机系统或将成为该领域突破方向。

有人-无人系统协同作战(MUM-T)

从相对安全的远程位置对装备与系统实施半自主控制,现已成为现代战场固定要素。未来将加速发展徒步/车载部队与自主系统协同作战概念——即"有人-无人系统协同作战"(MUM-T)。该概念定义为"通过同步部署士兵、有人/无人空中地面载具、机器人及传感器,实现态势感知增强、杀伤效能提升与生存能力优化"(BAE Systems, 2023)。

未来陆地战场特征体现为作战无人系统(UxS)融入部队编成,例如作为伴随式陆空协同平台。基于广泛算法、机器学习与高速大数据处理,无人系统将逐步实现更高层级自主性:初始阶段由操作员远程操控;待相关概念、技术及操作挑战解决后,将过渡至部分自主执行任务;远期或可实现完全自主化。核心效益不仅在于提升作战系统火力,更在于通过减少有人单元作战部署,使其聚焦其他任务,从而拓展战术任务谱系与执行范围(《航空航天技术》, 2022)。同时无人系统在MUM-T中的普及将量化缩减有人单元部署规模,降低伤亡风险(Zahradníček et al., 2022)。

然MUM-T框架内无人系统战术运用受两大因素制约:一是物理环境微地形信息处理能力局限(Křišťálová et al., 2022; Mazal et al., 2020);二是目标精确识别(PID)缺失——因系统尚缺可媲美人脑精度的目标性质判定算法库。现有作战识别(CID)能力虽可辨识己方单位,仍无法区分战场人员属性(敌军/平民/其他角色)。

可预见时期内,杀伤/非杀伤效果终决权仍归属人类操作员或决策者。尽管如此,MUM-T或将成为陆地战场关键创新:通过分布式智能网络连接的智能模块化无人系统,将作为有人平台的力量倍增器。复杂未来作战环境必然要求无人系统与有人空/地平台协同编组作战。技术进步与AI发展将逐步提升军用无人平台自主性与冗余度,大幅减轻未来作战中MUM-T的后勤与认知负担(《航空航天技术》, 2022)。

自主/半自主平台独立性增强将使"人在环内"模式逐步淘汰,减少MUM-T所需操作员数量。通过降低对无人平台的直接操控强度,有人单元将获得战术、战役乃至战略层面的更强战场掌控力。当人类无需操作"非生命体"平台的导航与目标识别系统时,操作员可聚焦情报分发、作战编组协同等复杂任务。鉴于无人系统潜力,MUM-T编组内人机比例将随时间递减,但纯无人编队的创建部署仍存疑(《航空航天技术》, 2022)。

外骨骼系统

在未来军事行动中部署有人-无人系统协同作战(MUM-T)时,最大挑战在于将"人类士兵"整合至该体系——正如研究前文所述,与"机器"不同,人类会疲劳且必须在精神、心理和生理层面应对致命无人平台的动态变化与普及(Yeadon, 2021)。外骨骼系统正是增强部署人员体能的关键技术,其大规模应用将催生可称为"重型徒步步兵"的新兵种或专业部队(Mudie et al., 2021)。

外骨骼使用热潮预计将席卷高体能负荷军种,主要源于装备武器超重问题(Wu et al., 2021):
• 爆炸物处理(EOD)分队需携行排爆装备
• 步兵单位背负战斗载荷长途机动
因此外骨骼发展需聚焦穿戴舒适性与武器系统集成能力(含定向能武器)。

这些"战士战甲"将降低士兵代谢消耗:外骨骼承担机械工作(负重/行走),减少后勤需求并允许战场兵力更分散部署。同时集成先进通信系统与指挥控制(C2)平台,使未来战士能"数据赋能决策优化"(Gruss, 2022)。

未来外骨骼将通过增强防护提升战场生存力:在标准单兵防护外增设防破片层,重点保护要害部位以降低战损(Bengler et al., 2023)。关键技术突破在于未来二十年设计变革——从"额外负重"转型为"人机一体"作战复合体。该概念使士兵能在技术饱和战场作为高级资产(如无人系统)的控制节点,凭借增强火力、生存力与复杂态势感知能力,成为自主系统的战场"人形备份"。

人工智能

人工智能(AI)已被北约列为"新兴颠覆性技术"(EDTs)——即能引发多领域突破的快速发展技术(NATO, 2023)。未来二十年AI将爆发式增长,深刻影响全域安全防御需求,并为陆地作战环境带来新挑战。AI结合高级数据分析与"大数据"应用,将根本性改变跨域作战的信息环境:
• 用于优化"影响力作战":迷惑对手/转移舆论支持/直接干预作战人员认知(Lucas, 2022)
• 提升现代武器系统杀伤效能:在"目标锁定"环节全面参与"决策-探测-投射-评估"(D3A)流程
• 通过优化资源分配与打击资产运用,显著削弱敌军作战潜力

自主系统、有人-无人协同及"重型徒步步兵"都将依赖AI提供的通用作战图(COP)。AI将逐步接管陆地作战环境中非必要人力的领域:军事水文气象、战场测绘、分析支援、后勤系统、关键基础设施防护(Jančo, 2022)及材料工程。第二类AI优势领域是人类响应过慢的任务:目标探测、电子战、网络防护、爆炸物侦排(Agarwala, 2023)。指挥控制与目标交战等领域未来二十年仍将保持"人机混合"模式——人类干预负责注入军事艺术,并规避道德法律困境(Morgan et al., 2023)。

AI重点发展方向已明确聚焦:指挥控制、信息管理、后勤保障与训练(Grand-Clément, 2023)。这些主题领域紧密关联,有理由预见AI将为地面部队提供压倒非AI敌军的决定性优势。

结论

"当今军队无法对抗21世纪中叶技术先进的超现代化军队"的假设看似直观却非完全客观。毕竟军事史上不乏证伪案例:本世纪前二十年,全球技术最先进的军队在伊拉克与阿富汗平叛行动中仅能实施有限作战。但需明确——此类"挫败"根源并非单纯源于作战潜力不足。未来二十年最先进军队的能力必将剧变,其增长核心加速器在于创新技术整合,这些技术将在互联性、速度、杀伤力、自主性、可持续性等领域引发陆地战场显著变革。这些因素将根本性影响未来作战中地面部队的部署理念。未来作战环境特征体现为多域互联同步作战,行动协同增效需求始终显著。信息环境容量、吞吐量、速度、数据流冗余度及信息处理能力将成为决定性因素。军事力量运用的核心意图将是破坏敌方系统完整性与连通性,瘫痪其链路。

可预见陆地战场将由"混合战斗系统"主导,但人类仍居核心地位。未来二十年指挥控制(C2)作为核心作战功能仍不会被AI机器取代——人类扮演决策者角色,机器负责全域数据采集处理分析。无人系统(UxS)替代人类执行高危任务,各类平台由人类远程管理或(视自主化程度)至少实施遥控。尽管待控占的物理作战环境规模显著扩大,作战本质并未根本改变。但装备能力将变革,其运用方式与手段将拓展。从未来军队作战潜力物理组件视角看,远程杀伤性资产(如作战无人系统/集群、远程火力特别是火箭炮与身管火炮、先进弹药及游荡弹药)将至关重要。

效应器射程、速度、精度与杀伤力的持续提升,将影响高价值难替代平台的生存力及地面部队自身效能。精准地理定位、高精度实时真实战场态势感知、持续传感器互联与即时自动化效应器响应的结合,意味着近期军队可能不再需要(或无法遵循)传统认为必要的"集中原则"——即通过时间/空间/规模的集中达成目标。应对技术优势敌军火力威胁的潜在方案是深化分布式发展:即战场兵力分散化(含作战行动分散化)。由此可预期任务、空间、资源与时间受限的战术行动将增加。有人/无人作战系统在技术饱和战场的生存力,将取决于其进入作战区域的速度、区域内高机动能力及后续撤离重组再部署能力。小范围密集部署作战系统、静态作战模式、低水平欺骗伪装、线性单域作战及其他"经实战检验但过时"的传统军事行动方式,将倍增部队定位风险及随之而来的即刻压制风险。

所有已识别技术将构成整体防御能力与威慑基础,因其确保技术主导权。故任何国家必须发展并落实于安全领域建设。经合理结构整合与流程实施的技术,必将成为质量优势的决定因素。但若技术拥有方无法全面认知物理环境能力与给定条件,且不能因地制宜运用军事艺术、创造力及自身能力,则先进装备潜力在作战环境中的应用仍将不足。

成为VIP会员查看完整内容
25

大型语言模型(LLMs)正迅速从被动的文本生成引擎演化为具备计划、记忆、调用外部工具以及彼此协作能力的智能体实体。本文以观点论文的形式探讨了此类LLM智能体(及其组成的社会)如何重塑推荐系统的设计空间。

我们提出了一套统一的形式化框架,该框架:(i)将单个智能体建模为一个由语言核心、工具集和分层记忆组成的元组;(ii)将多智能体推荐系统建模为一个由智能体集合、共享环境以及通信协议组成的三元组。在此框架下,我们展示了四个端到端的应用案例——互动派对策划、用于离线评估的合成用户模拟、多模态家具推荐,以及符合品牌调性的解释生成——每个案例都体现了由智能体编排所解锁的一项关键能力。 随后,我们提出了五大跨领域的挑战类别:协议复杂性、系统可扩展性、幻觉与错误传播、涌现的不一致性(包括隐蔽串通),以及品牌一致性问题。对于每一类挑战,我们均进行了问题形式化、初步缓解策略回顾,并指出了亟待解决的开放研究问题。

最终成果既是蓝图也是议程:蓝图展示了如何将具备记忆增强与工具使用能力的LLM智能体组装成稳健的推荐流程;议程则号召推荐系统(RecSys)社区开发新的基准、理论保障机制以及治理工具,以应对这类高度自主系统的快速演进。 通过将智能体抽象与推荐目标相融合,本文为构建新一代个性化、可信赖且具备丰富上下文感知能力的推荐服务奠定了基础。

1 引言与动机

大型语言模型(LLM)驱动的智能体不仅仅是传统意义上的聊天机器人,它们展现出智能体行为,而非仅通过基于 token 的预测来回应用户查询。本质上,它们被设计用于处理多步骤任务、编排信息流,并在必要时自主调用各种工具或功能【50, 54, 67】。这一点与传统聊天机器人形成了鲜明对比——后者可能仅在一次对话轮次中提供简短回答,而智能体系统则能够主动组织复杂问题并通过一系列有条理的步骤加以解决。换言之,LLM 智能体不仅是被动的对话伙伴,更是具备将任务分解并调用外部资源以达成目标的动态问题求解者【20, 25, 69】。 使用 LLM 智能体的一个根本原因在于现实任务的复杂性和多阶段性。面对旅行规划、多维度研究或迭代设计流程等复杂情境,单个静态提示往往无法满足需求。这些任务通常涉及多轮决策与外部数据交互,而智能体系统能够将复杂目标拆分为较小的子任务,并逐步加以解决。这种方法规避了传统文本查询的局限,使得决策过程更具鲁棒性和上下文感知能力,并更贴近人类的推理方式【52, 59】。此外,通过将“认知负担”分散到不同的组件中,智能体框架还能降低“幻觉”或回答不完整的风险,确保最终结果不再依赖单次 token 预测【26】。 记忆机制是 LLM 智能体中的关键组成部分,它确保与用户的对话随着时间推移保持一致性和个性化。与传统聊天机器人每轮对话独立、无法追踪历史内容不同,现代智能体结合了多种互补的记忆结构,每种记忆类型都针对不同目标进行优化(详见第3节): * 工作记忆(短期):帮助智能体回忆当前会话中的近期对话内容。例如,当用户提出“推荐一本悬疑小说”后紧接着说“像上次那本一样”,工作记忆会保留原始推荐内容,从而响应后续请求,而无需用户重复前述查询。 * 情节记忆(长期):记录具体的过去事件及其上下文与元数据。例如,一周前用户请求推荐意大利餐厅,如今提出“上次提到的那家餐厅”,情节记忆能准确检索出对应推荐,并回溯其提出时间与理由。 * 语义记忆(长期):从多次交互中提炼并积累通用事实或用户偏好。例如,经过多次对话,智能体可能推断出用户偏好意大利菜,即使在当前会话中未提及,也能主动将意式选项优先排序。 * 程序性记忆(长期):编码已习得的技能、流程或脚本,使智能体能高效地自动执行重复性任务。例如,若用户频繁请求“总结会议记录并发送邮件”,智能体可学会这一工作流;下次用户只需说“发送之前的总结”,即可自动完成任务。

综合运用这些不同类型的记忆,使得智能体始终掌握之前的步骤、用户偏好及外部知识,从而实现更流畅且具上下文感知的交互【18, 83】。 LLM 智能体的另一项核心优势在于其自主调用工具的能力,这极大增强了其处理复杂任务和提供专业信息的能力(见第2.1节)。这些智能体不仅依赖静态模型参数,还能主动调用专用模块或外部服务,以获取精确信息、执行特定分析或开展领域任务【23, 47】。例如,在推荐场景中,当用户请求推荐餐厅时,智能体可使用专业检索工具或数据库查询当前评分与可预订信息,而非依赖记忆中的旧数据。同样地,在推荐适配用户上传房间图像与风格偏好的家具时,智能体可能调用图像分析工具提取视觉特征,再检索产品数据库,筛选出符合审美与空间要求的商品(见第4节)。这些工具的使用也可与记忆机制相辅相成——如语义记忆(用户偏好、物品属性)与情节记忆(先前推荐记录)结合,从而提供更精确且具上下文关联性的推荐。最终,工具集成将 LLM 智能体的功能扩展到传统对话之外,使其具备更强的适应性与个性化处理能力。 综上所述——多步骤任务处理、记忆保持与工具调用——共同赋予 LLM 智能体超越传统问答式聊天机器人的自主能力。通过将任务拆解为可管理的组件【52】、保留关键上下文【38】、并在合适时调用外部工具【55】,LLM 智能体能提供更具思考性与整体性的解决方案,为对话系统与推荐系统带来更智能与灵活的变革。

成为VIP会员查看完整内容
23

**摘要:**具身智能体指能够根据指令完成某种或多种任务并且具备与物理环境交互能力的智能实体。其在服务机器人、智能教育、辅助医疗等领域具有巨大的潜在应用,是实现通用机器人的重要途径之一。随着多模态大模型的发展,具身智能体具备了更强的语言理解、推理判断和环境感知能力,极大地推动了该领域的发展。近年来,具身智能体领域涌现出许多优秀的研究工作,但缺乏系统的调查评述。为了帮助研究者更全面地了解这一领域,对具身智能体的研究进行了深入调研与展望。首先,介绍了多模态大模型,其次回顾了常用数据集和用于构建具身智能体的物理载体。然后,回顾了具身智能体的3个关键研究方向:具身大模型、高级任务规划和低级动作控制。最后,总结了具身智能体领域面临的挑战和存在的局限性,并展望了未来的发展方向。该综述为研究者提供了有价值的参考,旨在促进具身智能体领域的进一步发展与创新。 **关键词:**具身智能体,多模态大模型,机器人,视觉语言模型,具身智能

成为VIP会员查看完整内容
21

世界模型在通用人工智能(AGI)发展的过程中受到越来越多的关注,作为一种计算框架,用于学习外部世界的表征并预测未来状态。早期的研究主要集中在二维视觉感知与模拟上,而近年来具备三维感知能力的生成式世界模型已能够合成在几何上保持一致的可交互三维环境,标志着研究重心正逐步转向三维空间认知。尽管该领域发展迅速,尚缺乏系统性的分析来对新兴技术进行分类,并阐明其在推动三维认知世界模型中的作用。为填补这一空白,本文引入了一个概念框架,对世界模型从二维感知向三维认知的演进过程进行了结构化且前瞻性的综述。在该框架下,我们重点突出了两项关键技术驱动力,尤其是三维表征技术的进步与世界知识的引入,作为其基本支柱。在此基础上,我们进一步剖析了支撑三维世界建模的三项核心认知能力:三维物理场景生成、三维空间推理与三维空间交互。此外,本文还探讨了这些能力在实际应用中的部署情况,包括具身智能体、自动驾驶、数字孪生以及游戏/虚拟现实等。最后,我们总结了当前在数据、建模与部署方面面临的挑战,并提出了推动更加稳健且具泛化能力的三维世界模型未来发展的方向。

1.1 技术演化 世界模型的概念可追溯至认知科学中的“心理模型”(Mental Models)理论 [69]。心理学家 Kenneth Craik 提出,人类通过抽象外部世界为基本元素及其相互关系以实现认知与推理。系统动力学先驱 J. W. Forrester 将类似原理用于建模复杂系统,进一步验证了抽象表征在理解与预测系统行为中的效用 [37]。这套理论也为早期强化学习与机器人控制研究奠定了哲学基础,使智能体能够学习环境动态的内部模型。 2018 年,D. Ha 和 J. Schmidhuber 提出了一种影响深远的世界模型方法 [46, 47],通过将变分自编码器(VAE)用于高维感知输入的空间压缩,与循环神经网络(RNN)用于时间动态建模相结合,构建了分层架构。类似方法 [17, 48, 49, 134] 使智能体能够通过时空潜在表示模拟环境动态,并预测假设性动作序列的结果,在如赛车导航等复杂决策任务中超越传统的模型驱动强化学习方法。

2022 年,Yann LeCun 提出 Joint Embedding Predictive Architecture(JEPA)[79],受生物学习机制启发,允许机器以类似人类与动物的方式观察和理解世界。JEPA 通过非生成式预测学习方式,在多层次抽象与时间尺度上分解复杂任务。首先,JEPA 将多模态感知输入投射到联合嵌入空间,生成抽象的环境状态,该空间对世界动态实现高效编码,有助于从有限观测中学习稳健表征并预测未来状态。随后,JEPA 通过三个操作层建模多尺度时间依赖性:高层预测器负责长期目标规划,中层协调动作序列,低层实现精确动作控制,从而缓解传统模型在长依赖建模中的局限性并提升可解释性。V-JEPA [7] 将该架构扩展至视频数据,实现对视觉表征中多尺度时间依赖的分层建模。另一项值得关注的抽象推理研究是对比预测编码(CPC)[153],通过自监督对比学习获取紧凑的潜在表征,支持时间抽象与状态压缩。 相对于抽象结构化建模路径,另一类世界模型依赖于生成式 AI 范式,如自回归模型与扩散模型,通过显式重构数据来学习世界知识。这类模型可生成包括文本 [29]、图像 [6, 111, 120, 132, 181] 和视频 [11, 33, 41, 42, 44, 51, 75, 182] 等多模态数据。典型实例包括大型语言模型(LLMs)[2, 12, 130, 131] 和 Sora [114]。基于 Transformer 全局注意机制的自回归架构可有效捕捉长程时空依赖,实现世界状态的多步学习与预测;扩散模型则通过逐步添加噪声并学习逆向去噪过程以模拟数据分布,从而生成高保真视觉内容。OpenAI 将 Sora 定义为“世界模拟器”,并认为其有潜力作为构建全面世界模拟的基础工具。一些研究分析 [23] 表明,Sora 具备世界模型的特性,在建模基本物理现象方面展现出涌现能力。


1.2 从二维视觉表征迈向三维认知

抽象推理与数据驱动生成构成了世界建模的两大主流技术路径,在二维视觉表征与预测方面各有优势。JEPA/V-JEPA 擅长任务分解与逻辑推理,而 Sora 在二维视频拟合与生成多样性方面表现出色。然而,在处理三维环境中的运动模拟、物理交互与因果推理方面,两者均面临瓶颈。JEPA/V-JEPA 的分层编码器舍弃了低层几何细节以提升推理效率,导致在动态遮挡场景中的表现退化 [152];Sora 则仅学习像素级相关性,缺乏显式三维结构,限制了其模拟复杂物理动态或推理空间因果关系的能力。 与此同时,在具身智能体、自动驾驶与数字孪生等应用中,对精确三维场景构建、理解与交互的需求持续增长,推动三维生成建模加速发展。2024 年,World Labs 与 Google 推出从单张图像生成可交互三维场景的模型 [113, 117, 179, 180]。尽管这些模型在几何可行性上取得进展,但仍难以提供物理上合理的语义解释与响应式交互。这一缺口促使学术界与产业界共同迈向基于显式空间表征与认知先验的世界模型,作为下一个关键发展方向。 如图 1 所示,本文提出一个概念框架,围绕两项构建空间认知能力的基础组成展开世界模型的发展路线: * 三维表征的采用:以体积形式捕捉几何结构、辐射信息与空间构型; * 世界知识的引入:包括物理规律、空间常识、语义与结构先验,为世界建模提供上下文语境。

基于上述两个支柱,框架进一步界定了三项构成世界模型认知核心的能力: * 三维物理场景生成:使模型能够重建与合成符合物理可行性的体积环境,保证几何保真与动态真实; * 三维空间推理:在几何计算与语义先验/常识知识的结合下,推理空间关系、对象语义/功能与环境动态,引导规划与决策; * 三维空间交互:使模型具备目标导向、物理一致的交互能力,包括具身智能体行为与用户驱动的编辑,使其从被动观察者转变为三维环境中的主动参与者。

这一能力三元组呼应了智能系统常用的“感知–思维–行动”循环 [136],也为后续在具身智能、数字孪生、自动驾驶与游戏/虚拟现实等四大关键应用领域的调研与评估提供组织原则。


1.3 与现有综述的比较

为突出本文综述的独特视角,表 1 从基础聚焦、能力覆盖与主题强调等方面对比了已有综述工作。现有文献多集中于多模态学习 [102]、物理视频合成 [88] 或生成模型的维度扩展 [58] 等子领域,关注点往往局限于渲染真实感或抽象结构建模。例如 Ding 等(2024)[30] 按照状态表征与未来预测维度对世界模型进行分类,但较少涉及显式体积表征与主动交互等方面。相比之下,本文综述从三维认知视角出发,提供统一且系统的分析框架,从三维表征与世界知识两个支柱出发,系统梳理三项核心空间能力:三维物理场景生成、三维空间推理与三维空间交互。


1.4 文章结构

为系统探讨上述组成与能力,本文余下部分组织如下: * 第 2 节介绍三维世界建模的两项基本支柱:三维表征与世界知识; * 第 3、4 与 5 节分别深入探讨三项核心认知能力:三维物理生成、三维空间推理与三维空间交互; * 第 6 节展示这些能力在具身智能、自动驾驶、数字孪生与游戏/虚拟现实等关键领域中的应用; * 第 7 节总结当前挑战与未来方向,展望通用三维世界认知的发展路径。

成为VIP会员查看完整内容
22
Top
微信扫码咨询专知VIP会员