人工智能
AI智能体基础设施
专知会员服务
0+阅读 · 37分钟前
AI应用正当时,详解AI应用开发新范式
专知会员服务
16+阅读 · 7月10日
大语言模型
大语言模型在组合优化中的应用:系统综述
专知会员服务
9+阅读 · 7月11日
《潜在推理综述》
专知会员服务
15+阅读 · 7月9日
大语言模型的强化学习技术综述
专知会员服务
21+阅读 · 7月8日

摘要——AI 智能体正在经历一场范式转变:从早期由强化学习(Reinforcement Learning, RL)主导,到近年来由大语言模型(Large Language Models, LLMs)驱动的智能体兴起,如今正进一步迈向 RL 与 LLM 能力融合的协同演进。这一演进过程不断增强了智能体的能力。然而,尽管取得了显著进展,要完成复杂的现实世界任务,智能体仍需具备有效的规划与执行能力、可靠的记忆机制,以及与其他智能体的流畅协作能力。实现这些能力的过程中,智能体必须应对始终存在的信息复杂性、操作复杂性与交互复杂性。针对这一挑战,数据结构化有望发挥关键作用,通过将复杂且无序的数据转化为结构良好的形式,从而使智能体能够更有效地理解与处理。在这一背景下,图(Graph)因其在组织、管理和利用复杂数据关系方面的天然优势,成为支撑高级智能体能力所需结构化过程的一种强大数据范式。

为此,本文首次系统性地回顾了图如何赋能 AI 智能体。具体而言,我们探讨了图技术与智能体核心功能的融合方式,重点介绍了典型应用场景,并展望了未来的研究方向。通过对这一新兴交叉领域的全面综述,我们希望激发下一代智能体系统的研究与发展,使其具备利用图结构应对日益复杂挑战的能力。相关资源可在附带的 Github 链接中获取,并将持续更新以服务社区。

关键词:图、图学习、智能体、大语言模型、强化学习、综述

一、引言

在人工智能(AI)快速演进的浪潮中,AI 智能体因其在任务自动化处理方面的巨大潜力而受到广泛关注。智能体的发展历程经历了从早期基于强化学习(Reinforcement Learning, RL)的架构 [1], [2],到近年来由大语言模型(Large Language Models, LLMs)驱动的智能体 [3], [4],再到最新融合 LLM 作为知识基础与 RL 作为任务特定学习范式的紧耦合架构 [5],标志着智能体能力的一次重大飞跃。这一演进使得智能体能够利用 LLM 所蕴含的广泛世界知识理解复杂任务,并通过 RL 优化实现对任务的精准处理。 执行复杂现实任务的 AI 智能体往往需要具备多样化的能力 [6], [7]。高效的任务导航依赖于诸多智能体功能,例如精细化的规划能力、结合外部工具的精确执行能力、可靠的记忆机制,以及与其他智能体的高效协同能力 [8], [9]。然而,由于任务复杂性的存在,智能体在这些功能中常常面临信息、操作符以及交互的错综复杂与混乱无序。因此,亟需一种有效方式来组织和管理所遇数据,以便智能体能够更好地理解和高效处理,从而提升其应对复杂任务的能力。例如,在规划阶段,智能体需要解析非结构化的任务描述并将其重组为可执行的子任务计划;在执行过程中,需合理编排多种外部工具以兼顾效率与准确性;在记忆管理中,需有序整理庞大的内容以便有用信息得以保留并可快速检索;而在多智能体协作中,则需确定合适的协同拓扑结构,以实现有效的信息传递。在面对非结构化数据时,传统智能体通常只能在学习过程中隐式捕捉其中潜在的关联。基于数据中固有的有益关系,采用图为基础的显式建模结构化方法成为应对这一挑战的有前景途径,能够将原始而复杂的输入转化为简洁有序的形式,从而提升智能体的理解力与处理效率。这类结构化信息有助于智能体探索复杂任务并做出更具信息性的决策。 图在各类领域中已展现出广泛的适用性 [10]–[12],并被证明是管理数据、组织含有有价值关系信息的一种强大范式。在构建好的图基础上,图学习(Graph Learning)进一步通过对结构化信息的学习展现出显著成效 [13], [14]。具体而言,图通过将实体表示为节点、显式或隐式关系建模为边,提供了一种有效的数据组织方式。一个合适的图结构是实现智能体数据组织的关键。图结构的构建具有高度灵活性,可根据特定环境、任务、操作符与应用需求自定义图结构 [15]–[17],也可以利用现有的外部知识图谱 [18], [19]。这种灵活性使得图能够广泛嵌入于多种智能体及其多样化功能中。在构建好的图之上,图学习技术还可进一步提供一个强大的知识提取框架,帮助智能体捕捉复杂关系与有意义的信息。这使得图技术成为增强 AI 智能体在复杂场景下能力的理想手段。因此,图与智能体的交叉融合有望大幅提升其对结构化信息的处理与利用能力,进而赋能其在规划、执行、记忆与多智能体协作等方面的关键功能。 分类框架:本综述系统性地探讨了图在信息、操作符与多模型结构化组织中的作用,涵盖了从基于 RL 的智能体到基于 LLM 的智能体范式。考虑到 RL 技术与 LLM 基础模型日益紧密的融合,我们在分析中并未刻意区分图学习在这两类智能体架构中的作用,而是如图 1 所示,从智能体核心功能出发,以图赋能为主线展开讨论。我们重点关注图学习如何增强智能体的四大关键功能:规划、执行、记忆与多智能体协作。此外,本综述还探讨了智能体反过来如何促进图学习技术的发展。最后,在全面回顾的基础上,我们梳理了潜在的应用前景与关键的未来研究方向。通过综述该领域的系统洞察,我们旨在推动新一代能够利用结构化知识应对日益复杂挑战的 AI 智能体的发展。 在本文所探讨的背景下,现有综述主要集中于图技术在强化学习中的应用价值 [20], [21]。而随着 LLM 的快速发展,图学习也被视为提升其能力的有效技术,已有若干综述对该方向进行过探讨 [22], [23]。然而,尽管已有贡献,目前仍缺乏一项系统性地阐述图如何在智能体不同功能中发挥作用的综述。据我们所知,本文为首个系统性探索图技术与智能体多维操作交叉点的研究综述。我们希望通过全面回顾,为构建下一代图赋能智能体提供有价值的研究参考与启发。 本文的主要贡献如下: * 本文首次全面综述了图技术与 AI 智能体之间这一强大而充满潜力的交叉方向; * 我们提出了一种新的分类方法,系统化地梳理了图在智能体不同核心功能(规划、执行、记忆与协作)中的作用,并探讨了智能体如何反过来推动图学习的发展; * 基于本综述,我们进一步分析了图赋能智能体的应用前景、关键挑战以及未来研究方向。

文章结构如下:第二节介绍与本综述相关的基础知识;第三至第七节将根据提出的分类方法,详述各项相关研究;第八与第九节分别探讨图与智能体交叉领域中的潜在应用与未来机会;第十节对全文进行总结归纳。

本文提出了一种全新的分类方法,用于系统地探讨图技术与 AI 智能体如何实现相互增强,如图 2 所示。具体而言,在第 III 至第 VI 节中,我们介绍了图学习如何支持智能体的核心功能,包括规划(第 III 节)、执行(第 IV 节)、记忆(第 V 节)以及多智能体协作(第 VI 节)。通过将图与智能体功能之间的协同点加以细分,不仅契合了智能体系统设计中的自然模块化特征,也凸显了图技术在每项功能中所蕴含的独特潜力。 此外,在第 VII 节中,我们进一步探讨了智能体范式如何反过来促进图学习的发展。通过明确考虑这一反向作用,即基于智能体范式如何反哺图学习过程,我们强调了双向创新的重要性,并倡导一种整体视角,即图与智能体协同演化、深度融合,从而激发出超越单向整合的新方法论。 基于这一结构清晰的分类框架,我们将在第 VIII 与第 IX 节中进一步讨论相关应用与未来研究机遇。

成为VIP会员查看完整内容
50

摘 要:人工智能技术作为推动现代战争向智能化战争转型的重要变量,正在深刻改变战争形 态和方式。梳理和总结了2024年人工智能技术在军事智能领域的最新科技进展。综述表明:美、欧 在持续加强人工智能顶层设计、研发投入、机构改革的同时,开始逐渐从安全、成本等角度审视和 调整相关人工智能战略;生成式智能、群体智能、人机混合智能、具身智能等人工智能技术在军事 领域保持较高发展热度,并产出众多里程碑式成果,引领智能无人平台自主感知与跨域协同的军事 智能技术发展趋势;同时,世界主要军事强国正快速将军事智能广泛应用于陆战、海战、空战等多 作战域;未来,类人化数理与因果逻辑推理、全局和本地协同化模型训练、边缘侧低资源模型部署 与推理、大小模型弹性融合实施等,将成为军事智能技术的重要发展方向。 关键词:人工智能;军事智能;生成式智能;群体智能;人机混合智能;具身智能

成为VIP会员查看完整内容
33

摘要——强化学习(Reinforcement Learning, RL)是解决序列决策问题的重要机器学习范式。近年来,得益于深度神经网络的快速发展,该领域取得了显著进展。然而,当前RL的成功依赖于大量训练数据和计算资源,且其跨任务泛化能力有限,制约了其在动态现实环境中的应用。随着持续学习(Continual Learning, CL)的兴起,持续强化学习(Continual Reinforcement Learning, CRL)通过使智能体持续学习、适应新任务并保留既有知识,成为解决上述局限性的重要研究方向。本文对CRL进行了系统梳理,围绕其核心概念、挑战和方法展开论述:首先,详细回顾现有研究,对其评估指标、任务设定、基准测试和场景配置进行归纳分析;其次,从知识存储/迁移视角提出新的CRL方法分类体系,将现有方法划分为四种类型;最后,剖析CRL的特有挑战,并为未来研究方向提供实践性见解。 关键词——持续强化学习,深度强化学习,持续学习,迁移学习

一、引言

强化学习(Reinforcement Learning, RL)已成为机器学习中的一种强大范式,使智能体能够通过与环境的交互学习最优的决策策略 [1]。当强化学习与深度神经网络的表示学习能力相结合时,便产生了深度强化学习(Deep Reinforcement Learning, DRL),其在多个领域取得了显著的成功 [2]。DRL 展现了在解决高维复杂决策问题方面的巨大潜力,从精通国际象棋、日本将棋和围棋等棋类游戏 [3],到推动科学发现,如蛋白质结构预测 [4]、量子计算误差校正 [5],以及大型语言模型的训练 [6],[7]。此外,DRL 也被广泛应用于现实世界中的控制任务,如热电联产系统优化 [8]、托卡马克核聚变反应堆中等离子体配置控制 [9],以及实现安全的自动驾驶 [10]。 尽管 DRL 已取得诸多成就,但其当前的成功主要归因于在特定任务上学习固定策略的能力,通常需要大量的训练数据和计算资源 [11]。这为 DRL 在现实应用中的部署带来了重大挑战。具体来说,现有的 DRL 算法普遍缺乏跨任务高效迁移知识或适应新环境的能力。面对新任务时,这些算法通常需要从头开始学习,导致样本效率低下以及泛化能力差 [12]–[14]。 为应对上述挑战,研究人员开始探索如何使 RL 智能体避免灾难性遗忘并有效迁移知识,其最终目标是推动该领域向更具类人智能的方向发展。人类在解决新任务时,能够灵活地利用已有知识,同时不会显著遗忘已掌握的技能 [15]。受到这一能力的启发,持续学习(Continual Learning, CL),又称终身学习或增量学习,旨在构建能够适应新任务并保留过往知识的学习系统 [16]–[19]。CL 面临的核心挑战在于稳定性与可塑性的平衡——即在维持已学知识稳定性的同时,又具备足够的灵活性来适应新任务。其总体目标是构建能在整个生命周期内持续学习和适应的智能系统,而不是每次面对新任务时都从零开始。当前 CL 的研究主要聚焦于两个方面:灾难性遗忘的缓解以及知识迁移的实现。灾难性遗忘指的是学习新任务会导致模型覆盖并遗失先前已学任务的知识;而知识迁移则是指利用过往任务中积累的知识来提升新任务(甚至是已见任务)的学习效率与表现。成功解决这两个问题对于构建稳健的持续学习系统至关重要。 持续强化学习(Continual Reinforcement Learning, CRL),又称终身强化学习(Lifelong Reinforcement Learning, LRL),是 RL 与 CL 的交叉领域,旨在突破当前 RL 算法的多种局限,构建能够持续学习并适应一系列复杂任务的智能体 [20],[21]。图 1 展示了 CRL 的基本设置。与传统 DRL 主要聚焦于单一任务性能最优化不同,CRL 更强调在任务序列中保持并增强泛化能力。这种焦点的转变对于将 RL 智能体部署于动态、非平稳环境中尤为关键。 需要指出的是,“lifelong” 与 “continual” 两个术语在 RL 文献中常被交替使用,但不同研究中的定义与使用方式可能存在显著差异,从而引发混淆 [22]。一般而言,大多数 LRL 研究更强调对新任务的快速适应,而 CRL 研究更关注避免灾难性遗忘。本文采用更广义的 CRL 作为统一术语,呼应当前 CL 研究中同时兼顾这两个方面的趋势。 CRL 智能体需实现两个核心目标:(1)最小化对先前任务知识的遗忘;(2)利用已有经验高效学习新任务。达成这两个目标将有助于克服 DRL 当前的局限,推动 RL 技术向更广泛、更复杂的应用场景拓展。最终,CRL 旨在实现类人的终身学习能力,使其成为推动 RL 研究的重要方向。 目前,关于 CRL 的综述工作仍相对较少。部分综述文献 [18],[23] 对 CL 领域进行了全面回顾,包括监督学习与强化学习。值得注意的是,Khetarpal 等人 [21] 从非平稳 RL 的视角对 CRL 进行了综述,首先对通用 CRL 问题进行了定义,并通过数学刻画提出了不同 CRL 形式的分类体系,强调了非平稳性所涉及的两个关键属性。然而,该综述在 CRL 中的一些重要方面——如挑战、基准测试与场景设置等——缺乏详细的对比与讨论,而这些因素对于指导实际研究至关重要。此外,过去五年中 CRL 方法数量快速增长。鉴于此,本文旨在系统回顾近年来关于 CRL 的研究工作,重点提出一种新的 CRL 方法分类体系,并深入探讨知识在 CRL 中的存储与迁移机制。 本综述深入探讨了 CRL 这一不断发展的研究领域,旨在弥合传统 RL 与现实动态环境需求之间的差距。我们全面审视了 CRL 的基本概念、面临的挑战与关键方法,系统性地回顾了当前 CRL 的研究现状,并提出了一套将现有方法划分为不同类别的新分类体系。该结构化方法不仅清晰地描绘了 CRL 研究的整体图景,也突出了当前的研究趋势与未来的潜在方向。我们还从策略、经验、动态与奖励等多个角度审视方法间的联系,为优化 CRL 的学习效率与泛化能力提供了细致的理解。此外,我们也关注推动 CRL 边界的新兴研究领域,并探讨这些创新如何助力构建更复杂的人工智能系统。 本综述的主要贡献体现在以下几个方面: 1. 挑战分析:我们强调了 CRL 所面临的独特挑战,提出其需要在可塑性稳定性可扩展性三者之间实现平衡; 1. 场景设定:我们将 CRL 场景划分为终身适应非平稳学习任务增量学习任务无关学习,为不同方法提供了统一的对比框架; 1. 方法分类:我们提出了一种基于知识存储与迁移方式的新 CRL 方法分类体系,涵盖策略导向经验导向动态导向奖励导向方法,帮助读者结构性地理解 CRL 策略; 1. 方法综述:我们对现有 CRL 方法进行了最全面的文献回顾,包括开创性工作、最新发表的研究成果以及有前景的预印本; 1. 开放问题:我们讨论了 CRL 当前的开放问题与未来研究方向,如任务无关的 CRL评估与基准建设可解释知识建模以及大模型的集成使用

表 I 展示了本文的结构安排。接下来的内容如下:第二节介绍 RL 与 CL 的基础背景,有助于理解 CRL 的核心理念;第三节概述 CRL 的研究范畴,包括定义、挑战、评价指标、任务设置、基准与场景分类;第四节详细介绍我们提出的 CRL 方法分类体系,并回顾现有方法,按知识类型划分为策略导向(第四节 B)、经验导向(第四节 C)、动态导向(第四节 D)与奖励导向(第四节 E)四类;第五节探讨 CRL 的开放问题与未来发展方向;第六节为本文的总结与展望。

成为VIP会员查看完整内容
34

本美陆军训练条令为班组、小队及分队提供标准化直接火力杀伤链,通过通用标准化接战流程建立协同原则。本训练条令适用于装甲旅/斯特瑞克旅/步兵旅战斗队所有直射武器、武器系统及分队,供陆军全体人员、指挥官及参谋机构从单兵至旅级使用。

直接火力杀伤链旨在规范描述直射武器操作者、班组、乘组及排级单位的任务行动,使士兵与指挥官在最大化杀伤效能同时降低误伤与附带损伤。导图1展示直接火力杀伤链全流程。

直接火力杀伤链(下称"杀伤链")是持续进行的系统性互联任务、行动与功能,旨在对确认威胁快速有效施加适当战斗力以实现预期战术效果。

目的
本训练条令阐述直射武器杀伤链在士兵、指挥官、乘组、班排层级的应用,概述杀伤链各互联任务节点及其必须达成的具体结果(无论实现路径)。该流程代表直射武器接战标准程序,依赖操作者对部队敌我识别装备、单兵技能、交战规则、条令(含战术技术程序)、目标识别系统及战场态势认知系统的掌握。本手册仅在直接影响杀伤链时详述这些系统,协助指挥官决策实施致命直射火力打击,必要时标注相关补充出版物。

概览
杀伤链提供迭代化、标准化、系统化的目标接战方法。以下概述其基本功能环节:

1.武器状态
规范指挥官向下级通报战术任务中武器状态与交战规则的节点。武器状态是武器安全状态与基于敌情可能性的武器控制状态组合,交战规则由部队指挥官提供。二者协同使机动单元建立快速释放精确战斗力的战备等级,贯彻指挥官意图、防止误伤并减少附带损伤。

  • 来源:作战命令/预警命令/片段命令/交战规则/战术标准流程/威胁模板/态势模板等情报信息
  • 成果:小单位明确武器状态与交战规则,建立多弹种系统(如艾布拉姆斯/布莱德利)的"战斗携行状态"

图1-1 杀伤链

2.观察
论述士兵或集体单元持续扫描责任区重叠扇面,在接触前目视发现潜在战术威胁的过程。观察员选择特定区域精细侦察,识别环境异常、潜在威胁阵地、接近路径及敌可利用地形。

  • 来源:基于能力/标准流程/职能划分的建制观察扇区
  • 成果:锁定需精细侦察的关注区域

3.侦测
启动目标获取流程(侦测-识别-定位),描述观察员在责任区发现潜在威胁证据(目标特征)的过程。士兵先敌目视接触能力使部队能率先释放战斗力(反制接触)。

  • 来源:观察员发现的目标特征或异常
  • 成果:责任区内发现潜在威胁证据

4.识别
界定识别职责——判定未知接触性质(敌/我/中立/非战斗员/不明)的过程(JP 3-01)。识别工作包含对可辨识接触的质询判别,需结合情报、已知态势、敌我部署等信息判定非战斗员状态,是目标获取关键环节(JP 3-60)。

  • 来源:遵循"识别四步法"(辨识-评估-识别-判别)分析接触目标的车体/武器/悬挂/炮塔/装备/反应装甲
  • 成果:
    • 辨识目标军事属性
    • 评估威胁等级
    • 识别型号(或通称)及变体
    • 判别敌意属性(敌/我/中立/非战斗员/不明)

5.定位
涵盖确定已识别目标位置的方法,以引导武器系统或战斗力释放。观察员通过接触报告(或射手提交的目标捕获报告)向指挥官传递战术信息,定位触发单元光学/传感器/武器就绪状态调整,是目标获取核心环节(JP 3-60)。

  • 来源:共享至集体的判别目标信息;数字/模拟定位系统
  • 成果:指挥官获知目标位置,对应武器系统完成指向

6.决策
规范指挥官决策流程:在授权开火命令时判定战斗力运用方式、威胁等级分类、打击优先级及火力模式。所有决策基于杀伤链原则实施。

  • 来源:提交指挥官的接触/捕获报告
  • 成果:
    • 指挥官选定战斗力、分类威胁、排定打击序列、确定火力模式
    • 指挥官与射手完成目标确认

7.接战
概述直射火力交战实施规范,描述班/乘组/集体火力指挥要素结构(详见子条令TC 3-20.31-043)。火力指挥周期持续至达成预期效果,即有效破坏确认目标的杀伤链并消除其对友军威胁。

  • 来源:指挥官打击决策
  • 成果:对所有已知威胁达成预期毁伤效果

8.报告
交战完成后指挥官需向上级更新战术态势、战斗力运用效果及后续行动计划。本章规范数字/模拟/调频等报告方式及需提供的战术情报信息。

  • 来源:指挥官对战斗力效果/单元状态/后续行动的评估
  • 成果:向上下级传递战术情报,保障作战区域态势可视化

成为VIP会员查看完整内容
29

Image

几十年前,Mumford 曾写道,代数几何“似乎已经获得了一个声誉:它晦涩难懂、门槛极高、抽象无比,其拥护者似乎正密谋接管数学的其他所有分支。”如今,这场革命已全面到来,并从根本上改变了我们对许多数学领域的理解方式。本书为读者提供了这一变革性思想体系的坚实基础,通过非正式但严谨的讲解方式,帮助读者在掌握强大技术工具的同时建立直观理解。 本书以范畴思维和层的讨论为起点,逐步引出“几何空间”的概念,并以概型和簇为代表展开阐述,随后进一步讨论这些几何对象的具体性质。接下来的章节涵盖了维数与光滑性、向量丛及其自然推广、重要的上同调工具及其应用等主题。对于一些关键但进阶的内容,书中也通过带星号的部分进行了补充。 主要特色包括:

提供全面系统的入门指导,有望成为该领域的权威教材; * 包含丰富的练习,强调“做中学”的学习方式; * 几乎不设前置要求,从范畴论和层论一直发展到交换代数与上同调代数,构建学生所需的全部工具; * 采用以实例为驱动的方式,帮助建立扎实的数学直觉; * 既是面向研究生的自包含教材,也是研究人员的重要参考书籍。

成为VIP会员查看完整内容
30

图学习已迅速发展成为机器学习与人工智能(AI)领域中的一个关键子方向,使得对社交网络、生物学、金融、交通运输和知识表示等领域中复杂关系数据的建模成为可能。图学习的发展始于早期的图论方法,并在图神经网络(GNNs)出现后获得了显著推动。在过去十年中,随着可扩展架构、动态图建模、多模态学习、生成式人工智能、可解释人工智能(XAI)以及负责任人工智能的发展,图学习的适用范围已经扩展到多个复杂的应用场景。

图学习之所以重要,是因为它能够建模复杂的非欧几里得关系,而这类关系通常难以被传统机器学习方法有效捕捉,从而更好地支持诸如药物发现、欺诈检测、推荐系统和科学推理等现实世界应用。然而,为了充分释放图学习的潜力,仍需解决一系列挑战,如可扩展性、泛化能力、异质性、可解释性以及可信性等问题。 本综述对图学习进行了全面介绍,重点关注以下几个关键维度:可扩展图学习、时序图学习、多模态图学习、生成式图学习、可解释图学习和负责任图学习。我们系统回顾了当前处理大规模图结构的高效技术、捕捉时序动态依赖关系的方法、异构数据模态的融合方式、新颖图样本的生成机制,以及提升可解释性以增强信任与透明度的研究进展。同时,我们还探讨了图学习模型在部署过程中所面临的伦理问题,如隐私保护与公平性,以促进其负责任地应用。

此外,我们还识别并讨论了一些新兴主题,特别是图学习与其他AI范式的融合趋势,并对未来发展方向提供了前瞻性见解。本综述旨在为希望深入了解图学习快速演进格局的研究者与实践者提供一份有价值的参考资料。

成为VIP会员查看完整内容
28

摘要——随着生成式人工智能(Generative AI)的快速发展,尤其是大语言模型的不断突破,推荐系统正朝着更具通用性的方向演进。与传统方法不同,生成式人工智能不仅能够从复杂数据中学习模式和表示,还具备内容生成、数据合成和个性化体验等能力。这种生成能力在推荐系统中发挥着关键作用,能够缓解数据稀疏问题,并提升系统的整体性能。当前,基于生成式 AI 的推荐系统研究已取得了丰富成果。与此同时,推荐系统的目标也已超越单一的准确性要求,催生了大量面向多目标优化的研究,试图在推荐中综合考虑多种目标。然而,据我们所知,目前尚缺乏基于生成式 AI 技术的多目标推荐系统的系统性综述研究,相关文献仍存在明显空白。为填补这一研究空缺,本文对融合生成式 AI 的多目标推荐系统研究进行了系统梳理,按照优化目标对现有工作进行分类整理。同时,我们总结了相关的评估指标和常用数据集,并进一步分析了该领域面临的挑战与未来发展方向。 关键词——多目标优化,推荐系统,生成式人工智能,大语言模型

1 引言 在大数据时代,推荐系统已成为应对信息过载问题的关键工具,帮助用户高效地发现有价值的内容。它们被广泛应用于音乐、新闻、职位推荐等多个领域 [1]–[3],通过过滤海量信息流,显著提升用户体验。推荐系统的发展已历经数十年,从最初的协同过滤方法 [4]–[7] 和内容推荐方法 [8], [9],到后来的混合模型 [10]、基于图神经网络的方法 [11],以及深度学习方法 [12], [13],不断演进以满足日益增长的个性化和可扩展性需求。

近年来,生成式人工智能(Generative AI)的突破显著改变了推荐系统的格局。正如文献 [14] 所指出的,基于生成技术的推荐系统已成为该领域的新兴研究方向。生成对抗网络(GANs)[15]、变分自编码器(VAEs)[16]、扩散模型 [17] 和大语言模型(LLMs)[18] 等技术,使得推荐系统能够更丰富地进行数据合成并实现更深层次的上下文理解。其中,大语言模型在处理多模态数据(文本、图像、视频)和生成上下文感知的推荐内容方面展现出强大能力,带来了前所未有的灵活性。与传统模型依赖历史数据预测用户偏好不同,生成模型可以模拟用户交互、增强稀疏数据集,并生成个性化内容,从而为推荐范式的创新开辟了新路径。

生成模型在推荐系统领域展现出巨大潜力。目前的研究主要集中在单一目标任务,例如通过合成数据提升准确性,或利用大语言模型增强可解释性。然而,对准确性的过度关注可能导致“过滤泡沫”(filter bubble)现象 [19],使用户被限制在重复或同质化的内容中,抑制探索行为并削弱长期参与度。考虑到生成式人工智能在推理和理解方面的先进能力,其在多目标推荐中的应用也极具前景。 研究社区已广泛探索在传统推荐系统框架下平衡多种目标的多目标推荐系统(MORS)[20]–[23],但在融合生成式 AI 技术方面,相关研究仍属稀缺。因此,将多目标优化整合进生成式推荐系统,是一个亟待深入研究的方向。

为填补这一空白,本文系统调研了使用生成技术实现多目标推荐的现有研究。我们特别强调,任何关于推荐系统附加目标(如多样性、偶然性或公平性)的讨论,都隐含地将准确性作为基础性前提。因此,我们将多目标推荐系统(MORS)定义为:优化准确性之外其他目标的推荐系统。 本综述识别出当前生成式推荐系统中除准确性外的主要目标包括:多样性、偶然性、公平性与安全性;此外还涉及新颖性、可控性、效率与鲁棒性等附加目标。我们聚焦于推荐系统中广泛应用的四类生成技术:GANs、扩散模型、VAEs 与大语言模型。针对每一类目标,我们深入回顾了主流的模型架构与评估指标,并总结相关发展挑战,旨在为未来的多目标生成式推荐研究提供基础性见解。

本文的主要贡献如下:

本文为首个将生成式人工智能(包括 GANs、VAEs、扩散模型和大语言模型)与多目标推荐系统(MORS)结合的全面综述,提出了一个面向目标的分类框架,系统回顾了四类关键目标(多样性、偶然性、公平性、安全性)下模型架构、优化策略和评估指标的发展与局限性。 * 我们系统总结了不同目标领域(如公平性与偶然性)下的专用评估指标对应基准数据集,为实验设计提供标准化参考。 * 我们还讨论了生成式 MORS 研究中的核心挑战,并展望了未来的发展方向,包括改进评估指标、设计适用于 LLM 的高级策略、融合多种生成技术以提升推荐质量等。此外,我们强调跨学科合作(如伦理学、社会学)的重要性,以构建更加公平透明的推荐系统。这些见解为学术界与工业界的进一步探索与创新奠定了基础。

文章结构概览:

第 2 节综述推荐系统、生成式推荐系统和多目标推荐系统的相关文献,构建研究背景。 第 3 节介绍本文涵盖的四类主要生成技术。 第 4 节作为核心部分,系统梳理基于生成技术的多目标推荐系统,按超越准确性的目标进行分类,介绍相关定义、模型与评估指标。 第 5 节总结各类目标下常用的推荐数据集。 第 6 节探讨每类关键目标面临的主要挑战。 最后在第 7 节对全文进行总结。

成为VIP会员查看完整内容
30

摘要——近年来,视觉-语言预训练(Vision-Language Pretraining)作为一项融合视觉与文本模态优势的变革性技术,催生了强大的视觉-语言模型(VLMs)。依托于网络规模的预训练数据,这些模型展现出卓越的零样本推理能力。然而,在面对特定领域或专业任务时,其性能常常出现显著下降。为解决该问题,研究社区日益关注如何将 VLM 中蕴含的丰富知识迁移或泛化到多样的下游应用中。 本文旨在全面梳理 VLM 泛化的研究设定、方法体系、评测基准与实验结果。我们首先分析典型的 VLM 架构,并依据迁移模块的不同,将现有文献划分为基于 Prompt(提示)、基于参数、以及基于特征的方法三大类。随后,结合经典迁移学习(Transfer Learning, TL)设定,进一步总结与探讨各类方法的差异与特点,提出 VLM 时代下迁移学习的新解读。此外,本文还系统介绍了主流 VLM 泛化评测基准,并对各类方法在不同任务中的表现进行了详尽对比。

随着大规模通用预训练的不断演进,本文也探讨了视觉-语言模型与最新多模态大语言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之间的关联与差异。通过从“泛化”这一全新且实用的视角系统梳理视觉-语言研究的快速进展,本文有助于清晰描绘当前与未来多模态研究的整体格局。 关键词——视觉-语言模型,迁移学习,提示调优,鲁棒微调,领域泛化,测试时自适应,无监督领域适应,多模态大语言模型

1 引言

深度神经网络已在众多实际应用中取得显著成果。以视觉模型为例,从 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型规模与表示能力都得到了极大提升。然而,高效训练这些大规模模型往往需要大量标注数据与巨大的计算资源。为了解决这一问题,“基础模型”(foundation model)的概念应运而生——即在大规模数据集上预训练通用模型,以便将其知识迁移到各种下游任务中【4】。例如,预训练于 ImageNet【5】上的 ResNet 系列已成为图像分类【2】、目标识别【6】等视觉任务的重要基石。 自然语言处理领域也经历了类似的发展,从 Transformer【7】、BERT【8】到 GPT-2【9】与 GPT-3【10】,均在各自的单模态任务中取得卓越表现,但它们本质上缺乏对多模态信息的感知与推理能力。 如图 1 所示,对比式语言-图像预训练(contrastive language-image pretraining)范式的出现【11】彻底重塑了视觉-语言学习格局。Radford 等人提出的 CLIP【11】模型利用 4 亿网页爬取的图文对进行对比学习:将语义匹配的图文拉近、不匹配的拉远,从而实现了跨任务的强大零样本泛化能力,覆盖图像分类【11】、目标检测【12】、视频检索【13】等任务。后续研究通过扩大与去噪预训练数据集【14】【15】【16】、探索多样的预训练策略【17】【18】、引入多语言数据【19】【20】【21】,进一步增强了 VLM 的能力。 尽管 VLM 在通用任务上表现出色,但其预训练知识在特定领域的下游任务上泛化能力有限。若无合适的迁移方式,预训练的 VLM 往往难以处理分布外(OOD)数据,如遥感图像【22】或精细类别图像【23】【24】。传统的“预训练-微调”范式仍适用,但在 VLM 中直接微调可能破坏其对齐的视觉-语言表示,导致性能下降【25】【26】【27】。 因此,如何以尽可能低的计算与标注成本将 VLM 中的知识优雅地泛化至下游任务,已成为研究热点。考虑到 VLM 的多模态特性,研究者们尝试将单模态领域成熟的迁移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知识蒸馏【30】,扩展应用于 VLM【26】【31】【32】【33】。借助其庞大的通识知识,VLM 正逐步成为“任务无关型”求解器,在无监督领域适应(UDA)【34】【35】【36】、领域泛化(DG)【37】【38】【39】、测试时自适应(TTA)【40】【41】【42】等迁移学习场景中设立了新基线。 面对这种趋势,我们提出了关键问题:在 VLM 时代,知识迁移有何不同?

为此,本文对 VLM 的泛化能力展开系统文献综述。


研究动机与贡献

现有综述多聚焦于 VLM 的预训练阶段,如模型结构、预训练目标与数据集【43】【44】【45】。虽然部分工作提及了迁移学习【43】,但其覆盖面有限,尤其缺乏对不同迁移设定之间差异的探讨。本文是首个专注于 VLM 迁移与泛化能力 的系统综述。我们以主流的双分支架构(如 CLIP【11】)为基础,识别并归类迁移的关键模块,具体如下: 1. Prompt-based 方法:仅调节文本提示嵌入以控制模型行为【31】【32】【40】; 1. Parameter-based 方法:有策略地更新预训练参数【46】【47】【48】,或通过知识蒸馏引入新参数【33】【38】【39】; 1. Feature-based 方法:对提取到的特征进行后处理,如引入可学习模块【26】【35】或构建免训练缓存机制【27】【41】【49】。

我们结合迁移学习研究中的经典设定【4】【50】【51】,重新审视这些 VLM 方法,并分析其在不同迁移设定中的特性差异。随后,我们系统汇总了适用于各类迁移任务的主流基准数据集,并提供基于模型结构与方法设计的性能比较。


同时,本文还涵盖了 VLM 与多模态大语言模型(MLLM)之间的融合。近年来,大语言模型(LLM)取得突破性进展【52】【53】【54】【55】,将对齐语言的视觉编码器(如 CLIP)与 LLM 相连接,并以大规模多模态指令数据进行训练,构建出视觉-语言大模型(MLLM)。这些模型在视频理解、视觉问答、图像字幕、分割与识别等任务中展现出强大的泛化能力【18】【56】【57】【58】。 作为另一类通用视觉-语言模型,本文对 MLLM 的基本构建框架、模型类型、使用的预训练数据与目标,以及其在多任务中的表现进行全面总结,并呈现当前该领域的研究图谱(如图 3 所示)。


综述贡献总结如下:

系统回顾 VLM 泛化研究进展:涵盖无监督领域适应、领域泛化、小样本适应、测试时自适应等迁移学习任务;据我们所知,这是首个专注于 VLM 泛化的综述工作。 1. 提出三类关键迁移方法分类:Prompt-based、Parameter-based 与 Feature-based,并在各类迁移设定下深入分析其技术细节与适用场景。 1. 收集主流评测基准并对比方法性能:从泛化设定、模型结构与设计角度出发,提供公平、系统的性能评估。 1. 引入并分析 MLLM 的发展与代表模型:总结其结构、组成模块、泛化能力、训练数据与目标,为理解视觉-语言研究的前沿进展提供参考。 1. 提出当前挑战与未来方向:识别现阶段研究瓶颈,并展望可行的研究路径与潜力。


文章结构如下:

第 2 节介绍 VLM 相关基础知识及所涉及的迁移学习设定; * 第 3 节讨论 Prompt-based 方法,分为训练时提示(3.1)与测试时提示(3.2); * 第 4 节介绍 Parameter-based 方法,包括参数微调(4.1)与知识蒸馏(4.2); * 第 5 节探讨 Feature-based 方法,包括可学习适配器(5.1)与免训练缓存机制(5.2); * 第 6 节总结主流基准与方法性能评估; * 第 7 节介绍现代 LLM 如何增强与泛化 VLM,构成 MLLM; * 第 8 节总结当前进展并讨论未来的研究方向。

成为VIP会员查看完整内容
27

近年来,以大模型为代表的新一代人工智能技术迎来爆发式增长,成为推动产业升级、促进经济发展和引领社会进步的重要力量。智能体作为大模型应用的主要形态,高度贴合日益复杂的提质增效需求。加快推动智能体技术应用将成为推进人工智能与实体经济深度融合的重要抓手,是推动我国人工智能产业加速进入“模型研发-应用盈利-反哺科研”正向循环的可行路径。

2025年6月22日,中国信息通信研究院(简称“中国信通院”)人工智能研究所在华为开发者大会2025上联合发布了《智能体技术和应用研究报告(2025年)》,中国信通院人工智能研究所平台与工程化部主任曹峰对报告进行了深入解读。 图片

成为VIP会员查看完整内容
28

在每一章的开头,你会在右侧页边栏找到一个小的图表,旨在让你了解该场景发生时世界的情况。若要了解这些数字的含义的更详细解释,以及我们方法的更多更详细的信息,请访问ai-2027.com。   我们预测,未来十年的超级人工智能的影响将是巨大的,将超过工业革命的影响。OpenAI、谷歌DeepMind和Anthropic的首席执行官都预测,通用人工智能将在未来5年内到来。萨姆·奥特曼表示,OpenAI的目标是“真正意义上的超级智能”和“光辉的未来。”人们很容易将其视为只是炒作。这将是严重的错误——它不只是炒作。我们并不想自己炒作人工智能,但我们认为超级智能在本世纪末到来是极有可能的。   我们不会在所有事情上都正确——这大都是猜测。但在整个项目过程中,我们进行了大量的背景研究、专家访谈和趋势外推,以做出我们能做出的最明智的猜测。此外,我们的团队在预测方面有着优异的记录,尤其是在人工智能方面。首席作者DanielKokotajlo在4年前撰写了一个类似的情景,名为“2026年将是什么样子”,其时效性出奇地好,而EliLifland是一位顶尖的竞赛预测家。   如果我们正处于超级智能的边缘,社会远未做好准备。很少有人甚至试图阐述通过超级智能发展的任何可行路径。我们撰写《AI2027》就是为了填补这一空白,提供急需的具体细节。我们希望看到世界上有更多这样的工作,尤其是来自不同意我们观点的人们。我们希望通过这样做,引发关于我们走向何方以及如何驶向积极未来的广泛讨论。   我们通过反复问自己“接下来会发生什么”来撰写这个场景。我们从当前时代开始,撰写第一个时期(直到2025年中期),然后是下一个时期,直到达到结局。我们并没有试图达到任何特定的结局。然后我们放弃了它,重新开始,很多次,直到我们得到了一个我们认为可信的完成场景。在我们完成第一个结局——赛车结局之后,我们写了一个新的替代分支,因为我们还想描绘一种更充满希望的方式,在大致相同的前提条件下结束。

成为VIP会员查看完整内容
27

战场攻击目标的选择是最关键的决策之一。该决策问题被表述为武器目标分配(WTA)问题。既往研究中,动态规划、线性规划、元启发式及启发式方法均被用于求解此问题。然而,先前研究存在模型过度简化、计算负担过重、对突发事件适应性不足以及问题规模变化需重新计算等局限。为突破这些限制,本研究旨在运用强化学习与图神经网络解决WTA问题。所提方法通过映射真实决策框架"OODA循环"(观察-调整-决策-行动)实现高度实用性。在多环境实验中,通过与现有启发式及元启发式方法对比验证了该方法的有效性。该研究为传统上仅限人类专家的战术指挥控制领域引入突破性的智能决策方法论。

图1:兵棋模拟中随机性的概念图

成为VIP会员查看完整内容
26

本文介绍了我们在具身人工智能(Embodied AI)智能体方面的研究,这些智能体以视觉、虚拟或物理形式体现,从而能够更自然地与用户及其环境交互。这类智能体包括虚拟化身、可穿戴设备以及机器人,旨在具备感知、学习与行动的能力,使其在学习与交互方式上更接近人类,相比于非具身智能体更具自然性与适应性。 我们提出,世界模型(World Models)的构建是具身智能体实现推理与规划的核心,能够帮助智能体理解并预测其环境、把握用户意图与社会语境,从而提升其自主完成复杂任务的能力。世界建模涵盖了多模态感知的整合、基于推理的规划与控制、以及记忆机制,共同构建对物理世界的全面理解。除物理世界外,我们还提出应学习用户的心理世界模型(Mental World Model),以实现更优的人机协作。 虚拟具身智能体正在变革治疗与娱乐等领域,通过提供具情感理解能力的交互体验。可穿戴智能体(如集成于 AI 眼镜中)有望实现实时辅助与个性化体验,而机器人智能体则可应对劳动力短缺,在非结构化环境中执行任务。本文不仅探讨了具身智能体面临的技术挑战及我们的解决策略,还强调了在这些智能体逐步融入日常生活过程中对伦理问题的重视,尤其是关于隐私保护拟人化的议题。 未来的研究方向包括:具身智能体的学习能力、多智能体协作与人机互动的提升、社会智能的增强,以及在设计过程中确保伦理实践。通过应对上述挑战,具身智能体有望革新人机交互方式,使其更直观、更能响应人类需求。本文综述了我们在具身智能体研究方面的现状与未来方向,旨在推动其潜力的全面释放,为人类生活带来深远影响。

1 引言

具身人工智能(Embodied AI)智能体是一类具备视觉、虚拟或物理形式的人工智能系统,使其能够与用户及其物理或数字环境进行学习与交互。这些具身 AI 系统必须具备在环境中进行有意义感知与行动的能力,因此也就要求它们对所处物理世界有深入理解。相比之下,仅存在于网络中的无形智能体并不具备具身性,而那些依靠遥控或预编程指令运行的机器人或无人机,也缺乏真正智能体所需的自主性与适应性。 可穿戴设备的独特之处在于:它们集成了能够感知物理世界并执行动作的 AI 系统,这种“感知—行动”的协同机制使得从用户视角出发,可穿戴智能体也具备具身性,模糊了人机边界。正如哲学家梅洛-庞蒂(Maurice Merleau-Ponty, 1945)所言:“我不是在我的身体里,我就是我的身体”,这强调了身体并非仅是思想的容器,而是存在本身不可分割的一部分。这一观点与具身智能体的理念密切相关,即智能体的身体与其环境共同构成其认知过程的重要组成。基于此,我们提出一个具身智能体框架,核心在于世界建模(World Modeling),使智能体能够以更复杂、更类人的方式推理与交互。 具身性在当前 AI 与机器人研究中主要有两个作用:(1)物理交互:使 AI 系统能够通过直接动作(如机器人智能体)或感知环境(如可穿戴智能体)与物理世界互动;(2)增强人机交互:研究表明,具身智能体能够提升用户的信任感(Winata et al., 2017; Fung et al., 2018; Shridhar et al., 2024)。此外,具身智能体还有一个日益受到关注的潜力方向:(3)类人的学习与发展方式——通过模拟人类的丰富感官体验,从而实现更直觉、类人的学习过程(Dupoux, 2018; Radosavovic et al., 2023)。 构建一个能自主学习、能够与人类和现实世界互动,并在个人与职业生活中提供帮助的 AI 系统,始终是人工智能发展的目标。从最初基于规则的聊天机器人,到 AI 客服,再到虚拟助手,每一代 AI 助手都具备更强的能力。线上 AI 智能体的出现是这一演化的最新阶段。与此同时,AI 的具身化也展现出多样形态,从具身对话代理(Cassell, 2001),到可穿戴设备(Alsuradi et al., 2024)、机器人(Mon-Williams et al., 2025),再到类人机器人(Cao, 2024)。每种具身形式面向不同的任务与应用场景,具备各自独特的能力需求,同时也共享一些核心能力。 不同于以往的 AI 助手,现代 AI 智能体更具自主性,能自主规划多步骤任务,决定所需的外部资源,并判断需协作的其他智能体,能够根据用户显式的请求或上下文隐含的信息理解用户需求。具身智能体还需为用户执行或协助用户执行实际动作,这对其推理与规划能力提出了更高要求。这种“感知世界并据此规划行动”的能力,正是世界建模的核心(LeCun, 2022)。 此外,智能体应能够与用户进行对话,以便在需求不明确或情境发生变化时澄清意图或确认信息。未来,智能体还需能与多个用户及其他智能体进行协作交互。这要求人机互动具备表达性、社会敏感性与情境适应性——换言之,智能体需要理解用户的“心理世界模型(mental world model)”。为支撑物理与心理世界的建模、推理与规划,具身智能体还需具备短期与长期记忆能力。 AI 助手演化为 AI 智能体,很大程度上得益于大语言模型(LLM)与视觉语言模型(VLM)的进展。开发者通过对 LLM 和 VLM 进行提示调控(prompting),构建了具身化的虚拟智能体,如虚拟化身(Cherakara et al., 2023)、智能眼镜、虚拟现实设备(Pan et al., 2024)以及机器人平台(Brohan et al., 2023;Tong et al., 2024)。这些 LLM 不仅在自然语言理解与生成方面表现优异,经过 RLHF 微调后,还具备了更强的指令遵循能力,甚至展现出零样本完成多任务的能力,无需专门为某一任务设计训练。伴随全球数百万用户的广泛使用,从最初的新奇感迅速转向对“能够辅助完成任何任务”的现实期待。 智能眼镜(如 Meta Glasses)使用户可以通过设备摄像头获取视觉输入、通过麦克风提供语音输入,并接入 AI 智能体(如 Meta Multimodal AI),尽管目前尚未能充分获取环境中的听觉线索。LLMs 与 VLMs 被用于实现感知、推理与规划功能,推动了情境感知 AI(Contextual AI)的发展(Erdogan et al., 2025)。VLMs 可通过指令调优实现逐步规划(Kim et al., 2024),而机器人也可在 LLM 提示下执行任务(Ahn et al., 2022)。 然而,生成式模型也存在一个核心缺陷,即其模型规模效率低下。它们擅长生成下一个 token 或像素,适用于创意任务,但往往包含大量冗余细节而缺失对推理与规划而言至关重要的信息。而推理与规划能力正是 AI 智能体的根本。因此,为提高具身 AI 的准确性与效率,我们提出采用一种基于多模态感知进行推理与行动预测的世界建模方法。 本文首先综述不同类型智能体及其应用场景,接着介绍我们为具身智能体提出的世界建模框架,其中包括感知机制、物理与心理世界建模、记忆系统、以及行动与控制策略。我们讨论了基于生成式模型的世界建模方法,同时也探讨了更高效且更可信的预测式世界模型(predictive world models)替代方案。接下来,我们将分别介绍三类具身智能体:(1)虚拟具身智能体;(2)可穿戴智能体;(3)机器人智能体,并在每一部分中列举现有评测基准与未来研究方向。最后,我们描绘了具身学习的未来愿景,以及由多个智能体协同合作的“智能体家族(Family of Agents)”。文章最后还探讨了两个关键伦理问题:隐私与安全,以及拟人化(Anthropomorphism)

成为VIP会员查看完整内容
26

摘要——近年来,基于大语言模型(LLM)驱动的AI智能体展现出前所未有的智能性、灵活性与适应性,正在迅速改变人类的生产方式与生活方式。如今,智能体正经历新一轮的演化:它们不再像传统LLM那样孤立运行,而是开始与多种外部实体(如其他智能体与工具)进行通信,以协同完成更复杂的任务。在这一趋势下,智能体通信被视为未来AI生态系统的基础支柱,许多组织也在近几个月内密集推出相关通信协议(如Anthropic的MCP和Google的A2A)。然而,这一新兴领域也暴露出显著的安全隐患,可能对现实场景造成严重破坏。为帮助研究者迅速把握这一前沿方向,并促进未来智能体通信的发展,本文对智能体通信的安全问题进行了系统性综述。具体而言,我们首先明确界定了“智能体通信”的概念,并将其完整生命周期划分为三个阶段:用户-智能体交互、智能体-智能体通信以及智能体-环境通信。随后,我们针对每个通信阶段详细解析相关通信协议,并根据其通信特性剖析潜在的安全风险。在此基础上,我们总结并展望了各类安全威胁可能的防御对策。最后,本文还讨论了该领域仍待解决的关键问题与未来研究方向。 关键词:大语言模型、AI智能体、智能体通信、攻击与安全

一、引言

大语言模型(LLM)的出现引发了人工智能(AI)领域的革命性进展,在理解复杂任务方面展现出前所未有的能力【308】。更重要的是,LLM极大推动了人类所期望的理想AI形式——智能体(agent)的发展。与主要扮演聊天机器人的LLM不同,智能体具备更全面的能力(如感知、交互、推理与执行),使其能够独立完成现实世界中的任务。例如,当用户希望制定旅行计划时,LLM只能以文本形式提供最佳方案,而智能体则可以将方案转化为实际行动,如查询天气、购买机票和预订酒店。智能体大大加速了企业智能化转型的进程,其市场规模预计将以每年46%的速度增长【222】。可以预见,智能体将颠覆现代社会的生产与生活模式,深刻改变未来商业格局。因此,发展和推广智能体已成为各大国家和头部科技企业的战略重点。 当前,智能体正朝着面向特定领域的定制化实体方向演进,即针对特定场景和任务进行专门设计。在这一背景下,如图1所示,许多任务往往需要多个智能体协作完成,这些智能体可能分布于全球互联网上。在这种条件下,智能体通信成为未来AI生态系统的基础,能够支持智能体发现具备特定能力的其他智能体、访问外部知识、分派任务及完成其他交互。基于这一庞大的通信需求,越来越多的研究社区和企业开始抢占先机,投身于智能体通信的发展。 2024年11月,Anthropic提出了模型上下文协议(Model Context Protocol,MCP)【16】,这是一个通用协议,允许智能体调用外部环境,如数据集、工具和API。MCP在近几个月内迅速引起广泛关注,截至目前,已有数百家企业宣布接入MCP,包括OpenAI【203】、Google【87】、Microsoft【53】、Amazon【21】、阿里巴巴【10】和腾讯【251】,MCP软件包的每周下载量已超过300万次【17】。2025年4月,Google又提出了Agent to Agent协议(A2A)【218】,该协议支持智能体之间的无缝通信与协作。自发布以来,A2A获得了包括Microsoft【188】、Atlassian【149】和PayPal【229】等多家企业的广泛支持。由此可见,智能体通信的突破正带来迅速且深远的变革,并将成为AI生态系统不可或缺的一部分。 然而,智能体通信的迅猛发展也带来了复杂的安全风险,可能对AI生态系统造成严重破坏。例如,不同组织间的智能体协作显著扩大了攻击面,可能引发严重的安全威胁,包括但不限于隐私泄露、智能体伪造、智能体欺凌以及拒绝服务(DoS)攻击。由于智能体通信研究尚处于初期阶段,急需对整个通信生命周期中存在的安全问题进行系统性回顾。顺应这一趋势,本文旨在对现有的智能体通信技术进行全面梳理,分析其中的安全风险,并探讨相应的防御对策。我们相信本研究将对广泛读者群体有所帮助,无论是投身于智能体研发的科研人员,还是刚入门的AI初学者。 本文的主要贡献如下: * 首次系统性综述智能体通信:我们首次提出智能体通信的定义,并按通信对象将其划分为三个阶段:用户-智能体交互、智能体-智能体通信、智能体-环境通信。该分类覆盖了智能体通信的完整生命周期,同一阶段的通信协议通常具有相似的攻击面,有助于后续研究更方便地进行分析与评估。 * 深入分析智能体通信发展过程中的安全风险:我们讨论了已发现的攻击方式以及尚未揭示的潜在威胁。分析表明,用户-智能体交互主要面临来自恶意或错误用户输入的威胁,智能体之间的通信则易受到来自其他智能体或中间人的攻击,而智能体-环境通信则可能被受损的外部工具和资源所影响。 * 详细探讨有针对性的防御对策:我们指出了针对已识别安全风险的可能防护方向。例如,用户-智能体交互需要有效过滤多模态输入;智能体-智能体通信需要强大的机制来监控、归档、审计并量化协作中行为的责任;智能体-环境通信则应依赖于对外部环境中“中毒”内容的强力检测机制。 * 最后讨论开放问题与未来研究方向:我们不仅指出了急需发展的防护技术,还强调相关法律与监管体系亦需尽快完善。只有技术和法规双轮驱动,才能切实保障智能体通信在现实中的安全性。

文章结构

如图2所示,本文的组织结构如下:第二节对比相关综述,突出本文的创新点;第三节介绍研究所需的基础知识;第四节提出智能体通信的定义与分类;第五至第七节依次介绍用户-智能体交互、智能体-智能体通信、智能体-环境通信中的协议、安全风险及防御对策;第八节讨论该领域的开放问题与未来研究方向;第九节为本文的总结。

成为VIP会员查看完整内容
25

摘要

在伊拉克和阿富汗的冲突中,美国的“死神”和“捕食者”无人机为美军提供了显著优势,因为它们能够长时间滞空、在冲突区外远程操控(从而避免人员损失),并降低了近期军事行动的总成本。然而,这些特别复杂系统的高生产和维护成本,阻碍了其真正变革战争形态的潜力,尤其是在其仅用于无争议制空权的特殊条件下时。

土耳其“拜拉克塔尔”TB2无人机的出现,将一套复杂的空中监视和打击系统的采购与运用成本降低了约六倍,使得阿塞拜疆或乌克兰等较小国家在财政上得以负担。阿塞拜疆部队在纳戈尔诺-卡拉巴赫冲突中成功部署这些无人机,促使包括乌克兰在内的其他国家开始采购。随后,在俄罗斯入侵乌克兰的初期阶段,这些系统取得了与大型无人机相当的成功率。

然而,无人机在俄乌战场的密集使用促使俄军调整其对抗此类无人机的措施,这反过来又迫使乌军采用新战术。在日益增长的成本压力和不断增加的补充需求下,乌军已转向在前线作战中部署越来越多的小型无人机,而将大型无人机保留用于俄防空火力活动较弱的区域。

当前,乌克兰战争可被描述为一场消耗战,双方都遭受了包括无人机在内的巨大军事装备损失。一些研究显示,乌方每月损失的无人机数量高达10,000架(Watling & Reynolds, 2023)。即便如此,据报道,无人机需担负摧毁或损坏约60-70%俄军装备的责任(Watling & Reynolds, 2025)。

本文旨在提炼关键经验教训和建议,不仅针对军事领域,也面向大西洋两岸国家民用部门的决策者。虽然不追求详尽无遗,但本文提供了一份中期研究,同系列后续研究必将跟进。

1.现代战场无人机的大规模生产必须有强大的生态系统支撑​​

大规模、持续性的无人机生产对现代战争至关重要,并需要一个灵活、有韧性的生态系统。乌克兰的经验凸显了持续创新、多样化生产策略以及快速融合新兴技术的重要性。无人机,特别是第一视角(FPV)机型,相较于传统武器系统已证明其极高的成本效益,可显著增强战术优势。发展蓬勃的无人机产业需要采取整体方法——包括教育、有利的立法、公私协作——确保创新想法能够有效地转化为军事能力。

2.有效防御需机动、分层的反无人机措施​​

乌克兰战争突显了一种机动、分层的反无人机防御体系的至关重要性,它须能适应现代无人机带来的不断演变的威胁。整合各类传感器、干扰器和武器——通过人工智能管理软件进行协调——对于应对战场上无人机不断增强的效力是必不可少的。

3.小型无人机的信息输入强大软件后可提供对战场态势的精细理解​​

装备先进软件的小型无人机正在革新对战场态势的理解,产生细致的实时视角,从而改变军事行动。诸如“元星座”(MetaConstellation)等系统整合来自众多来源的数据,以提供全面的战术图景,从而能够做出更明智、更及时的决策。 ​​ 4.无人机的多功能性和适应性可带来切实的战场优势​​

无人机的多功能性和适应性——特别是第一视角(FPV)和自组装改型(DIY)——通过定制化、先进技术和快速适应各种任务与作战环境,在战场上提供了显著优势。“空中航空母舰式”无人机和“蜘蛛网”网络等创新进一步扩展了其能力和作战范围。 ​​ 5.无人机攻防措施间的技术竞赛要求不断创新​​

无人机战争中的技术竞赛要求不断进行创新,因为有限续航时间和自主系统复杂性构成了显著挑战。乌克兰战场的经验强调了快速适应和大规模应用新技术以保持竞争优势的必要性。

图:反无人机系统

成为VIP会员查看完整内容
25

多模态推理的最新进展在很大程度上得益于文本链式思维(Chain-of-Thought,CoT)范式的推动,该范式主张模型在语言中进行推理。然而,这种以文本为中心的方法将视觉仅视为静态的初始上下文,导致了丰富感知数据与离散符号思维之间的根本语义鸿沟。人类认知往往超越语言,将视觉作为一种动态的心理画板加以利用。而类似的演化趋势也正在人工智能领域显现,标志着一个范式的根本性转变:从“思考图像”的模型迈向真正能够“借图思考”的模型。 这一新兴范式的核心特征在于模型将视觉信息作为思维过程中间步骤加以利用,从而将视觉从被动输入转变为可操控的动态认知工作空间。在本综述中,我们沿着智能不断增强认知自主性的演进路径,对该趋势进行了梳理,这一演进历程可分为三个关键阶段:从外部工具探索、程序化操作,到内在想象。 为了系统化这一快速发展的研究领域,我们的综述提出了四项主要贡献:(1)确立“借图思考”(Thinking with Images)范式的基本原理及其三阶段框架;(2)全面回顾构成该发展路线图中各阶段核心方法的代表性工作;(3)分析评估基准和关键应用的现状与变革趋势;(4)指出当前面临的主要挑战,并展望未来值得关注的发展方向。通过这一结构化的综述,我们旨在为构建更强大、更贴近人类思维方式的多模态人工智能提供清晰的研究路线图。

1 引言

大型多模态模型(Large Multimodal Models, LMMs)近年来标志着人工智能领域的一个关键转折点,展现出在理解和生成多模态内容方面的显著成果 [Team et al., 2023; Liu et al., 2024a; Wang et al., 2024a; Chen et al., 2025a]。这一进展从根本上重塑了 AI 跨越视觉感知与语言抽象之间认知鸿沟的能力。而促成这一“第一波”变革的核心推动力之一,便是语言中心化的推理机制,尤其是链式思维(Chain-of-Thought, CoT)范式的引入 [Wei et al., 2022; Kojima et al., 2022]。通过将复杂问题分解为一系列文本化的推理步骤,CoT 大幅提升了 LMM 在多种多模态任务上的表现,包括视觉问答 [Zhang et al., 2023a; He et al., 2025a; Shen et al., 2025]、视觉支撑的数学问题求解 [Lu et al., 2023] 和复杂叙事生成 [Wu et al., 2024a] 等。 在这一既定范式中,也即我们称之为“思考图像”(Thinking about Images)的方式中,视觉模态主要被用作静态的初始上下文:LMM 首先“看到”一张图像,将其编码为一组固定的特征向量,然后仅在语言域中开展推理。图像是前提,但语言是唯一的思维媒介。尽管该文本中心化方法已颇具成效,但它暴露了一个根本性局限:即视觉世界丰富、连续且常常模糊不清的本质,与语言的离散、符号结构之间存在语义鸿沟 [Li et al., 2022]。图像在初始阶段的一次性编码将其扁平化为静态表示,形成了一个关键的信息瓶颈。因此,当任务需要更深层、递归式视觉参与时,如复杂物理推理 [Balazadeh et al., 2024]、精确空间操作 [Gupta and Kembhavi, 2023],或交互环境中的长程规划 [Pahuja et al., 2025; Wang et al., 2025a],模型往往难以胜任。 如今,一场新的多模态推理变革正悄然兴起。模型正在从仅用文本“思考图像”,转向真正能够“借图思考”的新范式。这标志着视觉在认知过程中的角色发生根本转变:从被动、固定的输入,变为动态、可操控的认知工作空间。正如人类使用草图本进行思维一样,模型如今也开始被赋予能力,能够主动查询、修改,甚至生成新的视觉信息,作为推理过程中的中间步骤。这种“视觉链式思维”(visual chain of thought)的能力,不再是对文本 CoT 的简单扩展,而是一种朝向更整体、更类人认知形态的革命性飞跃 [Larkin and Simon, 1987]。我们认为,这一新兴范式——“借图思考”(Thinking with Images),代表了多模态 AI 的下一前沿。其核心原则在于:将视觉表征作为可操控、可验证的思维形式,使模型能够在认知过程中主动观察、操纵并以视觉信息为中介进行推理。 本综述是首个对这一新兴且快速发展的研究方向进行全面、系统梳理的工作。为了组织这一不断演化的研究图景,我们提出了一个概念性框架,描绘该范式在认知自主性不断增强过程中的三阶段演进路径。这三个阶段反映了模型实现视觉推理目标的不同机制(即“如何做”)以及推理动机(即“为何做”):从作为“指挥者”调度外部视觉工具、演进为“视觉程序员”以代码实现定制化视觉操作,最终成长为能够进行内在想象与模拟的“视觉思考者”。第二节将详细阐述这一三阶段演进路径。 随着各阶段方法的不断涌现,一个关键问题也随之而来,而本综述正旨在解答这一问题: 大型多模态模型如何通过认知自主性不断增强的三个阶段,演进至“借图思考”的新范式?该范式又由哪些核心方法、评估策略、应用场景和挑战构成?

本综述围绕该问题进行系统组织,并遵循图 1 所示的分类结构。我们将在第 2 节建立该范式的基础,随后在第 3、4、5 节分别探讨三个阶段所涉及的具体方法。在第 6 节,我们回顾相关评估基准和实现框架,第 7 节探讨该范式的关键应用,第 8 节则总结面临的挑战并展望未来方向。通过清晰的分类体系与前瞻性视角,我们希望不仅总结已有知识,也为构建更强大、更直观、真正多模态的 AI 激发未来研究灵感。


1.1 本综述的定位

与已有综述的差异

早期的综述为理解 LMM 奠定了基础,但大多持有一个共同视角:视觉主要作为上下文输入,而语言仍是推理的主导载体。诸如 Yin et al. [2024]、Zhang et al. [2024c]、Wu et al. [2023a] 等面向通用 LMM 的综述,主要聚焦于架构、预训练语料和评估协议,对模型在图像编码后如何利用视觉信息的探讨则相对有限。Xie et al. [2024a] 将分析拓展至智能体场景,但仍以工具调用为中心,缺乏对内部视觉认知机制的关注。而在数学推理 [Yan et al., 2024]、幻觉检测 [Liu et al., 2024c]、评测基准 [Li et al., 2025d] 等任务专向综述中,虽涉及更具体任务细节,但仍延续了文本中心化的框架。近期已有部分工作开始讨论显式推理机制:如 Wang et al. [2025g] 回顾了多模态 CoT 提示设计,Li et al. [2025e] 探讨了“感知–推理–规划”流程;但即便如此,视觉模态仍然是被动的:模型通常只是对图像进行一次性描述或标注,随后继续在语言域中进行思考。 我们的立场

本综述聚焦于范式的转变:从“思考图像”到“借图思考”。我们首次系统性地分类和整理了促成这一演进的机制,其中图像从一个静态前提转变为一个动态、可操作的认知空间。我们按照认知自主性的提升轨迹来组织综述内容,阐明模型如何从(1)调度工具进行探索、到(2)以编程方式主动生成视觉分析,最终迈向(3)在封闭认知环中进行内在视觉想象。我们相信,这一发展将从根本上重新定义推理步骤的结构、可验证证据的标准,以及如何衡量真正的视觉智能。

成为VIP会员查看完整内容
23
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员