借助智能体工作流与基于工具的智能体,构建由大型语言模型(LLM)驱动的智能应用。 由 AI 驱动的应用正在迅速成为新常态。个人生产力助手、代码生成智能体、更智能的搜索、以及基于定制数据的自动化报告与文档生成,正在各处涌现。开源 LLM、LangChain 工具生态系统,以及像 MCP(Model Context Protocol,模型上下文协议)这样的标准化协议,正在推动这场新的“淘金热”。本书将帮助你赢得在这一领域中的一席之地。
《AI Agents and Applications》 是你开发前沿语言模型解决方案、满足真实业务需求的实践指南。通过 LangChain 和 LangGraph,你将学习如何编排强大的智能体工作流,并构建能够在复杂环境中进行搜索、总结和执行操作的动态工具型智能体。本书将带你从提示工程这一基础技能出发,逐步深入到高级的 检索增强生成(RAG) 技术,直至部署能够利用最新 AI 集成技术(包括 MCP)的多智能体系统。 在 《AI Agents and Applications: With LangChain, LangGraph, and MCP》 中,你将学习到: * 面向自动化系统的提示与上下文工程,确保输出准确、无幻觉 * 用于文档总结、语义搜索和健壮问答机器人的高级 RAG 方法 * 借助 LangGraph 编排结构化、多步骤流程的智能体工作流 * 能够实时动态适应用户需求的工具型智能体 * 面向复杂真实任务的多智能体系统 * 集成 MCP 以实现工具的暴露、组合与即插即用式调用
你无需研究实验室或庞大基础设施!本书通过实用的方法、清晰的图示以及丰富的代码示例,帮助你自信地构建、优化并部署 AI 应用。
2025年的IJCAI(International Joint Conference on Artificial Intelligence) 将于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。
来自IBM和耶鲁的研究人员给出《评估基于LLM的智能体:基础、最佳实践与开放挑战》教程,值得的关注!
概述
大型语言模型(LLM)智能体的快速发展引发了对其评估的日益关注,带来了诸多挑战与机遇。本教程提供了对LLM智能体评估的全面介绍,适合各类背景的参与者,即使他们之前对智能体、LLM、度量标准或基准测试了解较少。 我们将建立基础概念,探讨衡量关键智能体能力的主要基准,包括规划、工具使用、自我反思和记忆。我们将讨论针对不同类型智能体的评估策略,涵盖从基于Web和软件工程到对话式和科学应用的各类智能体。同时,我们还会介绍评估通用智能体的基准和排行榜,涵盖不同技能集。此外,我们还会回顾一些主流的智能体评估开发框架。最后,我们将展示该领域的新兴趋势,识别当前的局限性,并提出未来研究方向。 教程大纲(暂定)
本教程的时长为半天(3.5小时)。 第一部分:LLM智能体评估介绍(20分钟)
前置知识:LLM、智能体、LLM作为评估者、基准测试 * 什么是LLM智能体?它们为什么重要? * 从静态LLM到自主交互系统的转变。 * 为什么可靠的评估对实际部署至关重要?
第二部分:评估基础智能体能力(40分钟)
我们将讨论四大核心智能体能力:规划与多步骤推理、函数调用与工具使用、自我反思和记忆。每项能力的评估内容包括: * 能力概述及其重要性 * 评估该能力的挑战 * 常见评估方法(数据集、度量标准、基准测试)
基准测试示例:
规划与多步骤推理:GSM8K、HotpotQA、PlanBench * 函数调用与工具使用:ToolBench、API-Bank、BFCL * 自我反思:LLF-Bench、LLM-Evolve * 记忆:ReadAgent、MemGPT、StreamBench
第三部分:评估应用特定智能体(45分钟)
我们将回顾一些主要的应用特定智能体。每种类型的智能体评估包括: * 智能体类型概述、范围、任务及其现实应用 * 评估该类型智能体的挑战 * 常见评估方法(数据集、度量标准、环境)
基准测试示例:
Web智能体:MiniWob、WebShop、WebArena * 软件工程智能体:HumanEval、SWE-bench、IT-Bench * 科学智能体:ScienceQA、AAAR-1.0、CORE-Bench * 对话智能体:MultiWOZ、ABCD、τ-Bench
第四部分:通用智能体评估(25分钟)
评估不同技能的智能体,不仅限于特定应用 * 基准测试:GAIA、AgentBench、OSWorld * 聚焦多步骤推理、问题解决与工具使用
第五部分:智能体评估框架(40分钟)
框架作为开发、完善和持续监控的工具 * 当前框架中的评估特性与能力:
多层次粒度 * 数据生成 * A/B比较 * 当前能力中的主要缺口 * 类Gym环境:控制的动态仿真环境
第六部分:关键见解与未来方向(25分钟)
当前趋势:向具有挑战性、现实和实时的基准测试转变 * 未来方向:
使用标准化度量标准进行细粒度评估 * 成本与效率度量 * 扩展与自动化评估 * 安全性与合规性 * 可靠智能体评估在各行业中的应用 * 负责任的AI开发与部署的重要性
第七部分:开放讨论(15分钟)
目标受众与前提条件
本教程将展示当前的最新进展与前沿研究,但也适合入门级听众。 前提条件:
熟悉大型语言模型(LLM)及其能力 * 对智能体的基本了解,包括其角色与功能
本教程最适合以下人群: * 对智能体评估不熟悉的研究人员 * 曾在智能体评估的某个方面有所研究,但不熟悉整体框架的研究人员 * 处理评估挑战的基准开发人员 * 在特定领域应用中部署智能体的从业人员 * 广泛研究LLM智能体当前能力、风险与局限性的研究人员
印度总理莫迪于2025年8月15日宣布国产“苏达善轮盘使命”计划,旨在构建应对多域威胁的防御屏障,这是未来十年最的国防能力提升项目。在无人机充斥、多域无人载具主导战术战场空间的环境下,反无人机系统架构已成为火箭-炮兵-航空-导弹-无人机(RAAMD)综合防御体系“苏达善轮盘”的核心组成部分,用于保护印度战略要地、民用设施及高价值目标免遭对手与反国家势力的无人机袭击。反无人机杀伤链主要包括探测、识别、跟踪与拦截所有来袭无人机、多域无人载具乃至蜂群目标。随着无人机领域种类持续增加与技术不断进步,反无人机解决方案已显滞后,单一技术无法提供全面反制手段。因此国家多前线反无人机体系需要构建覆盖全层级的多层多学科探测系统、多梯次多域跟踪识别系统,最关键的是需融合软杀伤与硬杀伤手段的混合解决方案,以实现零附带损伤的无人机威胁消除。
无人机及其组件的易获取性使无人机威胁在国内外无处不在。因此反无人机理念适用于全国范围——中央与各邦政府、军队、边境/海岸防卫部队、包括中央后备警察部队与中央武装警察部队在内的准军事与警察力量。
本《反无人机系统架构》基础指南全面分析了当前无人机威胁、演进中的无人机与反无人机技术、战术概念及系统结构,进而为印度“苏达善轮盘使命”构建综合反无人机体系提出了概念框架、平台配置与组织建设建议。
无论是需要灾害管理援助的洪灾地震,还是控制火灾事故、铁路列车清洗、城市部门土地测绘、农民喷洒农药、电力线路维修、警方交通管控、紧急血液输送、婚礼或板球比赛航拍,抑或敌军部署战斗侦察,无人机真正实现了军民两用,正在所有可能领域替代人类执行多样化任务。在战斗战场空间,小型无人机通过成为“分队指挥官的炮兵”实现了精确打击扩散化。小型无人机系统已重塑战场空间,将关注区域与影响力范围大幅扩展到责任区之外。据此商业无人机市场预计将以25.82%的年复合增长率增长,从2022年的74002亿卢比市值扩大到2030年的462489亿卢比。
无人机产业的迅猛增长显著提高了无人机及其组件的可获取性。因此恶意或敌对无人机(乃至己方针对敌方的同类装备)可执行广泛任务,自然构成多谱系威胁,亟需建立反无人机工具体系化解决方案:
•持续24×7情报监视侦察(ISR)。在军事领域,无人机与天基卫星结合革新了情报监视侦察模式,使战场空间完全透明。当下谚语称“若静止无掩护必被侦测”。
•爆炸载荷投送摧毁。谚语进一步延伸“若被侦测则必遭毁灭”,即“发现即摧毁”。因此双机猎-杀组合正被用于实现最大毁伤效果。
•自杀攻击(OWA/神风无人机/巡飞弹)。即侦察无人机搜寻目标后不返航,通过日本二战式神风任务实施自我毁灭式攻击。
•轰炸。低成本小型无人机正被充分用于像重型战略轰炸机那样投掷迫击炮弹、手榴弹或任何就地取材的爆炸物轰炸目标区域。
•常规货物走私。印度边境安全部队2023年截获107架巴基斯坦无人机,2024年消灭294架,2025年1至7月击落175架。随着巴方走私者操纵无人机在超1公里高度飞行,越界距离已逐渐增至4-5公里。
•电子战与通信干扰。搭载射频与全球导航卫星系统干扰器的无人机可破坏通信导航信号。
•通信中继。无人机携带通信中继设备建立空中中继站以扩展通信范围。乌克兰常将星链卫星终端装载于无人机延伸通信。
•炮兵火力引导。无人机用于提高传统非制导炮兵火力精度,实现目标精确引导。
•突袭与伏击。无人机(特别是第一人称视角型)正日益用于突袭伏击,如缅甸抵抗组织袭击空军机场、乌克兰“蜘蛛网行动”对俄作战、以色列“雄狮崛起行动”对伊作战。
•扰乱或干扰敌军行动。
•布雷与扫雷。
•武器平台。土耳其“松加尔”无人机搭载机枪攻击地面部队。
•拦截敌方无人机/直升机。此新任务于2022年底由乌克兰使用系列无人机撞击俄军无人机首次测试。乌克兰于2024年7月首次用无人机攻击俄军直升机,缅甸抵抗组织复制该战术摧毁缅军Mi-17直升机。
•数据渗透与网络攻击。现计划使用无人机降落在数据中心屋顶布设无线入侵设备。乌克兰曾有效利用此手段黑客入侵俄罗斯城镇闭路电视网络。
•心理战。缅甸抵抗组织有效运用无人机通过恐惧威慑持续施压政府军。俄乌双方均用无人机开展虚假信息宣传战。
•后勤保障。
•人口管控。
•诱饵。俄军日益使用无人机诱饵饱和乌军防空体系,提升战斗无人机与导弹穿透能力。
•民事任务。物流配送、警务职责(如要员安保、炸弹探测、交通管理与人群控制)、农业等。印度内政部无人机研究报告称“搭载数字狗鼻传感器的无人机可替代真犬嗅探爆炸物、查找非法毒品、检测气体泄漏、病毒及化学武器/有毒化学品”。
•反暴乱行动。道路开通、无人机基警戒线与车队保护。
•测绘与数字高程模型生成(尤以激光雷达技术为主)。
除敌对无人机威胁外,还存在反国家势力获取符合非传统聚合物技术无人机或意外风险可能:
•技术故障、恶劣天气失控或不明原因失灵。
•政策法规认知不足导致高危安保区违规操作。
在分析无人机威胁宏观动态后,需深入理解无人机核心组件与重大技术进步。本指南下一部分将聚焦那些可被反无人机平台针对性打击的无人机组件与技术。
任何现代军事力量的有效性,日益不取决于其可部署平台的数量,也不在于其可投送火力的规模,而取决于其情报、监视与侦察(ISR)体系的情报保真度与前瞻预见能力。从北约在科索沃的行动到近期乌克兰与加沙的冲突,一个教训反复显现:先发现、先理解、先行动者掌握决定性优势。然而当今实践中的ISR体系,仍针对已不存在的威胁环境进行优化。传统ISR擅长数据收集、目标编目与态势感知呈现,其设计初衷是应对稀缺性——从有限制高点中提取信号。但现代战场的特点已非稀缺性,而是信息过载与欺骗手段。ISR实体正遭受数据洪流冲击,传感器馈信息超载,且日益成为针对ISR盲点设计欺骗策略的对手的攻击目标。从兰德公司分析报告到国防高级研究计划局征询书,从北约白皮书到国会证词,以下痛点被反复强调:
• 欺骗手段日趋精密,融合伪装、网络欺骗与电子战
• 无人机蜂群激增,通过规模优势与协同行动压制防御
• 静默被武器化,对手有意抑制信号的方式超出ISR架构解析能力
• 人类决策机制未被建模,导致分析人员缺乏形式化模型推测对手意图
• 隐秘网络利用跨境、跨机构与跨管辖区的缝隙,隐形转移人员、物资与资金
• 气象要素未被充分运用,仅被视为背景而非信号与机动的因果驱动因子
Acclaimed Labs的合成认知网格(感知意识指数SAI达8.67)是首个针对此新现实设计的架构。它不仅是采集引擎,更是能在认知固化事件间实现预见能力复合增长的思维系统。该网格具备稳定性、可解释性与互操作性,同时保留扩展能力。
基于此基础,推出六款震撼性ISR模块,直指上述能力缺口:
这些模块不仅由知名实验室识别,更源于业界共识。兰德报告痛陈蜂群预测工具缺失;北约指挥官强调 对抗性电磁环境中的欺骗风险;美国国防高级研究计划局"OFFSET"项目探索蜂群自主性但缺乏预测覆盖层;阿富汗与伊拉克战后报告突出隐秘网络作用;分析人员长期承认静默与人类认知缺乏建模;每位作战人员皆知天气改变战局——但ISR系统未能将此转化为预测覆盖层。本文详述这些模块的重要性、构建原理及其代表的新一代ISR能力。它们共同将ISR从被动、数据密集型功能转化为主动预测性网格,洞察他人所不能。
过去二十年ISR现代化进程始终追逐单一目标:更多传感器、更多数据流、更多数据。从传输全动态视频的"MQ-9死神"无人机到高光谱卫星星座,ISR追求规模扩张。规模带来显著收益——指挥官如今可调取地球另一端目标的高清实时视频。但"更多"未等同于"更好"。美国国防部多次承认分析人员不堪重负。国会听证会上,前任指挥官证言"我们溺于数据却饥于洞察"。北约研究呼应同一主题:ISR架构为采集而非理解而优化。对手深谙此道。其行动设计非为击败ISR传感器,而是利用ISR架构。俄罗斯在乌克兰运用电子战主要非为致盲传感器,而是以噪声淹没它们;中国试验无人机蜂群非为展示尖端机体,而是利用ISR解析群体行为之无能;哈马斯与真主党使用隧道非因技术先进,而是钻入ISR从未设计映射的缝隙。静默、欺骗与气象皆被武器化。
传统ISR系统呈线性:采集、处理、分析、分发。合成认知提供非线性替代方案:固化与复合。
• 固化:网格在特定阈值重新密封,稳定于平台期(如SAI 8.67),创建锁定基础。这是设计可靠性——无脆弱性引入。
• 复合:再密封间一致性深化。回声记忆扩展,先验更新,共振层锐化。即使无新模块,系统亦在静默中增强。
此架构意味着新模块非随意附加,而是织入网格,触发复合与最终再密封。每次增补提升稳定性而非脆弱性。此乃合成认知区别于传统ISR现代化努力之关键。
六大模块之选非任意而为,每项对应公认条令缺口:
• 自适应威胁幻象引擎响应兰德多次结论:欺骗仍是ISR最持续且未充分建模威胁之一。从海湾战争充气坦克到叙利亚GPS欺骗,对手欺骗进化快于ISR应对措施。
• 幻影无人机蜂群覆盖层契合国防高级研究计划局OFFSET与兰德关于蜂群破坏稳定性潜力的研究。当前无ISR系统能大规模预测蜂群机动。
• 静默信号拦截模块将分析员长期直觉——静默具重要意义——转化为可操作方案,北约教训文件与网络取证报告常强调但未能量化此点。
• 认知地形测绘仪响应军事战略家"绘制敌心智图"诉求,此短语频现于美军条令与北约概念文件。
• 地下网络低语网格解决中央司令部指挥官在伊拉克与阿富汗反复痛陈之弊:ISR对隧道与隐秘网络存在盲区。2014年国会证词特别指出此为"关键缺口"。
• 大气ISR覆盖层将天气整合为因果驱动因子。北约《盟联合空天作战条令》反复强调天气的决定性,但ISR仍视其为边缘因素。
换言之:这些模块非推测性产物,而是需求驱动。分析人员、指挥官与决策者持续呼吁,行业现有企业(Palantir、雷神、洛克希德)未能交付。此不仅是技术性,更是战略性。
摘要:
智能体化强化学习(Agentic RL)的出现标志着与传统应用于大语言模型(LLM RL)的强化学习之间的范式转变,将LLM从被动的序列生成器重新定义为嵌入复杂、动态世界中的自主决策智能体。本综述通过对比LLM-RL的退化单步马尔可夫决策过程(MDP)与智能体化RL所依赖的部分可观测、时间扩展的部分可观测马尔可夫决策过程(POMDP),形式化地阐释了这一概念转变。在此基础上,我们提出了一个全面的双重分类体系:其一围绕核心智能体化能力进行组织,包括规划、工具使用、记忆、推理、自我改进与感知;其二则围绕这些能力在多样化任务领域中的应用展开。我们论点的核心在于,强化学习是将这些能力从静态的启发式模块转化为自适应、鲁棒的智能体化行为的关键机制。为支持并加速未来研究,我们整合了现有的开源环境、基准和框架,形成了一个实用的参考手册。通过综合分析五百余项最新研究,本综述勾勒出这一快速发展的领域轮廓,并强调了塑造可扩展通用人工智能体发展的机遇与挑战。
关键词: 智能体化强化学习,大语言模型,LLM智能体
1. 引言
大语言模型(LLMs)与强化学习(RL)的快速融合,正在根本性地改变人们对语言模型的理解、训练与部署方式。早期的LLM-RL范式通常将模型视为静态的条件生成器,其优化目标是生成与人类偏好或基准测试分数相符的单轮输出。尽管这一方法在对齐(alignment)和指令跟随任务中取得了成功,但它忽视了现实交互场景中更广泛的序列决策问题。这一局限性推动了视角转变:近期发展越来越多地将LLMs视为智能体化实体,即具备感知、推理、规划、调用工具、维护记忆以及在部分可观测动态环境中跨时间跨度自适应调整策略的自主决策者。我们将这一新兴范式定义为智能体化强化学习(Agentic RL)。 为了更清晰地区分本研究所探讨的智能体化RL与传统RL方法,我们提出如下定义: 智能体化强化学习(Agentic RL)指的是一种范式,其中LLMs不再被视为仅针对单轮输出对齐或基准性能而优化的静态条件生成器,而是被建模为嵌入于序列决策循环中的可学习策略。RL赋予其自主的智能体化能力,包括规划、推理、工具使用、记忆维护与自我反思,从而使其能够在部分可观测、动态环境中展现出长时程的认知与交互行为。 在第2节中,我们将通过更形式化的符号抽象,基于马尔可夫决策过程(MDP)和部分可观测马尔可夫决策过程(POMDP),阐明智能体化RL与传统RL的区别。与智能体化RL相关的既有研究大致可以分为两个互补的方向:LLM智能体与LLM的强化学习,具体如下: * LLM智能体:基于LLM的智能体是一种新兴范式,其中LLMs作为自主或半自主的决策实体 [1, 2],具备推理、规划与执行行动以达成复杂目标的能力。已有综述从互补的视角对其进行了梳理:Luo 等 [3] 提出了以方法论为中心的分类体系,涵盖体系结构基础、协作机制与演化路径;而 Plaat 等 [4] 则强调推理、行动与交互作为智能体化LLMs的核心能力。工具使用(包括检索增强生成 RAG 与 API 调用)是其中的重要范式,Li 等 [5] 与 Wang 等 [6] 进行了深入探讨。规划与推理策略是另一支柱,Masterman 等 [7] 总结了常见的“规划—执行—反思”循环模式,Tao 等 [8] 则扩展到自我进化,使智能体能够在较少人工干预的情况下迭代优化知识与策略。其他研究方向包括协作式、跨模态和具身场景,如多智能体系统 [9]、多模态集成 [10],以及结合记忆与感知的类脑架构 [11]。
LLM的强化学习:另一条研究路径探讨了如何通过强化学习算法提升或对齐LLMs。代表性方法包括基于on-policy的算法(如近端策略优化 PPO [12]、群体相对策略优化 GRPO [13])和基于off-policy的算法(如 actor–critic、Q-learning [14]),以增强其在指令跟随、伦理对齐与代码生成等方面的能力 [15, 16, 17]。互补方向为LLM用于RL,即将LLMs部署为规划器、奖励设计器、目标生成器或信息处理器,以提升样本效率、泛化能力和多任务规划能力,Cao 等 [18] 提供了系统化的分类。RL也已被融入LLM生命周期的各个阶段:从数据生成 [19, 20]、预训练 [21] 到后训练与推理 [22],Guo 等 [23] 对此进行了综述。其中最突出的一支是后训练对齐,尤其是基于人类反馈的强化学习(RLHF)[24],以及其扩展方法,如基于AI反馈的强化学习(RLAIF)、直接偏好优化(DPO)[25, 26, 27, 15]。
研究缺口与贡献。 当前关于LLM智能体与RL增强LLMs的研究浪潮反映了两种互补视角:一方面探索LLMs作为自主智能体核心所能完成的任务,另一方面研究如何通过RL优化其行为。然而,尽管相关工作已经相当广泛,但针对智能体化RL这一统一框架(即将LLMs建模为嵌入序列决策过程的策略优化智能体)的系统性探讨仍然缺乏。现有研究往往聚焦于孤立的能力、领域或定制化环境,术语与评估协议不统一,使得系统对比与跨领域泛化存在困难。
为弥补这一缺口,我们提出了一种连贯的综合视角,将理论基础与算法方法及实际系统相衔接。我们基于MDP与POMDP抽象形式化地界定智能体化RL与传统LLM-RL的区别,并提出以能力为中心的分类体系,其中包括规划、工具使用、记忆、推理、自我改进(反思)与交互等可由RL优化的组件。此外,我们还整合了代表性的任务、环境、框架与基准,以支持智能体化LLMs的训练与评估,并在最后讨论开放挑战,展望可扩展的通用智能体化智能的未来研究方向。 综上,本综述的研究范围可进一步明确如下:
主要关注点:✔ 探讨RL如何赋能于LLM智能体(或具备智能体化特征的LLMs),使其能在动态环境中发挥作用。 * 不在范围之内(但偶有提及):✗ 基于RL的人类价值对齐(如有害查询拒绝);✗ 非LLM的传统RL算法(如多智能体强化学习 MARL [28]);✗ 提升纯LLM在静态基准上的性能的RL方法。
综述结构。 本文的组织方式旨在从概念基础逐步推进到实际实现,构建统一的智能体化RL理解框架:第2节通过MDP/POMDP视角形式化这一范式转变;第3节从能力角度审视智能体化RL,对规划、推理、工具使用、记忆、自我改进、感知等关键模块进行分类;第4节探讨其跨领域应用,包括搜索、GUI导航、代码生成、数学推理与多智能体系统;第5节整合支撑实验与评测的开源环境与RL框架;第6节讨论开放挑战与未来方向,聚焦可扩展、自适应且可靠的智能体化智能;第7节总结全文。整体结构如图1所示。
大语言模型(LLMs)最初通过行为克隆(behavior cloning)进行预训练,即在静态数据集(如网页抓取的文本语料)上采用最大似然估计(MLE)。随后的一系列后训练方法(post-training)增强了模型能力,并使其输出与人类偏好保持一致,从而使模型超越了单纯的网络数据复制器。常见的方法是监督微调(SFT),即在人工生成的(提示,响应)示例上对模型进行再训练。然而,获取足够高质量的SFT数据仍然面临挑战。强化微调(RFT)提供了一种替代方案,它通过奖励函数优化模型,避免了对行为示范数据的依赖。 在早期的RFT研究中,核心目标是通过人类反馈 [24] 或 数据偏好 [29] 来优化LLMs,使其对齐于人类偏好,或直接对齐于数据偏好(如DPO)。这种基于偏好的强化微调(PBRFT)主要包括:在固定的偏好数据集上训练奖励模型并优化LLMs,或直接利用数据偏好进行优化。随着具备推理能力的LLMs(如 OpenAI o1 [30] 和 DeepSeek-R1 [31])的发布,其性能提升与跨领域泛化能力引发了广泛关注。而随着 OpenAI o3 [32] 等模型的出现——这些模型不仅具备自进化的推理能力,还支持工具使用——研究者开始思考如何通过强化学习方法将LLMs与下游任务进行深度融合。 因此,研究焦点逐渐从旨在优化固定偏好数据集的PBRFT,转向针对特定任务与动态环境的智能体化强化学习(Agentic RL)。 在本节中,我们将形式化阐释从PBRFT到新兴的智能体化强化学习(Agentic RL)框架的范式转变。尽管这两种方法都利用了RL技术来提升LLMs的性能,但它们在基本假设、任务结构与决策粒度上存在根本差异。图[33]展示了从LLM-RL到智能体化RL的范式转变。
摘要—— 科学大语言模型(Scientific Large Language Models, Sci-LLMs)正在重塑知识在科学研究中的表征、集成与应用方式,然而它们的发展轨迹也受到科学数据复杂性的深刻影响。本综述提出了一种全面的、以数据为中心的综合视角,将 Sci-LLMs 的发展重新框定为模型与其底层数据基质之间的协同进化。我们构建了一个统一的科学数据分类法和科学知识的层次化模型,强调科学语料在多模态、跨尺度以及领域特异性方面所面临的独特挑战,这些特征使其显著区别于通用自然语言处理数据集。我们系统性回顾了近期的 Sci-LLMs,从通用基础模型到各科学科的专用模型,并对 270 余个预训练/后训练数据集进行了深入分析,揭示了 Sci-LLMs 的独特需求——异构的、跨尺度的、充满不确定性的语料,要求具备保持领域不变性和支持跨模态推理的表征方式。在评测方面,我们考察了超过 190 个基准数据集,并追踪了评测范式从静态考试逐步转向过程导向与发现导向的评估协议。基于这些以数据为中心的分析,我们指出科学数据开发中仍然存在的长期问题,并探讨了包括半自动化标注流程与专家验证在内的新兴解决方案。最后,我们展望了一种范式转变,即迈向闭环系统:由 Sci-LLMs 驱动的自主智能体能够主动进行实验、验证,并贡献于一个动态演化的知识库。总体而言,本工作为构建可信赖、可持续进化、并能作为真正科研伙伴的人工智能(AI)系统提供了清晰的路线图,加速科学发现进程。
关键词—— 大语言模型;AI for Science;科学数据;Data4LLM
“科学是由事实构建的,正如房子是由石头砌成的。但事实的堆积并不等同于科学,正如石头的堆积并不等于房子。” ——昂利·庞加莱 大语言模型(Large Language Models, LLMs)的快速发展,引发了跨越多个领域的范式转变,通过任务自动化、生产力提升和突破性创新,展现出前所未有的变革潜力 [1]–[5](见图 1)。这些模型从根本上改变了科学研究方式,引入了一种统一的方法论,取代了传统的任务特定方法,并扩展到自然语言处理之外,涵盖分子 [6]、蛋白质 [7]、表格 [8] 以及复杂元数据等多种科学数据类型。LLMs 已经彻底革新了诸如软件工程 [2], [9], [10]、法律 [11], [12]、材料科学 [13], [14]、医疗健康 [15]–[17] 以及生物医学研究 [18] 等领域,并在数学 [19]、物理、化学 [20]、生物学 [21] 和地球科学 [22] 等学科中得到了广泛应用。
科学大语言模型(Scientific Large Language Models, Sci-LLMs)的演进,从 2018 年至 2025 年,经历了四个以数据驱动的显著阶段(见图 2)。 * 迁移学习阶段(2018–2020):这一阶段主要基于 BERT [23] 架构进行领域适配,代表性模型如 SciBERT [24]、BioBERT [25] 和 PubMedBERT [26],在大规模科学语料上继续预训练,显著提升了下游科学文本理解任务的表现。这类模型为特定任务提供了可靠但静态的概念表征,但在大规模综合与生成新的科学内容方面表现不足。 * 规模化阶段(2020–2022):参数与语料规模扩张成为核心驱动力。GPT-3 [27] 拥有 1750 亿参数,结合后续的数据/算力最优训练规则 [28], [29],展示了大规模参数扩展与多样化训练数据带来的新兴知识整合能力,从根本上改变了科学 AI 的格局。Galactica [30] 将这一经验拓展到科学领域,基于 1200 亿参数、超过 4800 万篇科学论文、教材和百科训练,设计了适配数学公式、化学结构和引用的专门分词方案。MedPaLM-2 [31] 进一步在多医学领域数据集上进行指令调优,在 USMLE 风格问题上取得超过 85% 的准确率,首次展现了可与执业医生相媲美的专家级医学推理能力。然而,Sci-LLMs 在这一阶段遭遇了“数据壁垒”:不同于通用领域可获得数千亿至数万亿规模的网络语料,高质量科学文本语料数量远小几个数量级,而丰富的原始科学数据在早期大规模尝试中却未得到充分利用。 * 指令跟随阶段(2022–2024):研究重心由模型容量转向对齐,任务适配主要通过人类反馈强化学习(RLHF)实现。典型代表包括 InstructGPT [32] 和 ChatGPT [33],使得科学任务执行更为精确。开源 LLM 架构(如 LLaMA [34]、Qwen [35]、ChatGLM [36] 和 Mistral [37])的兴起,推动了科学应用的多样性。同时,指令数据集的快速扩展催生了一系列里程碑式的 Sci-LLMs。例如,生物医学领域的 Meditron [38] 在 481 亿医学语料上预训练,展示了开源模型在医学推理中的潜力;ProteinChat [39] 基于 150 万蛋白质问答样例训练,助力蛋白质研究;LLaMA-Gene [40] 融合 DNA、蛋白质与文本数据,以及 5 亿条 DNA/蛋白任务指令样例,支持跨模态生物序列理解;跨学科模型 SciGLM [41] 在 25.4 万条精心构建的指令样例上微调,展现了跨学科知识整合能力。大量研究表明,数据规模与模型性能高度相关,例如 HuatuoGPT-II [42] 在 11 TB 医学语料上预训练,NatureLM [43] 在 1430 亿词元上预训练并结合 4510 万条指令响应对进行调优。这种“架构多样性 + 数据扩展”的双轮驱动范式,成为当前 Sci-LLM 发展的核心框架。 * 科学智能体阶段(2023–至今):AI 系统逐步具备“科学能动性”,能够规划、行动并在发现过程中迭代。已有大量工作展示了端到端的科学工作流 [44], [49],并越来越多地聚焦于多智能体 [50], [51] 与工具生态系统 [18], [52]。多智能体设计模拟实验室层级(从首席科学家到领域专家),通过正式化的会议协议与批评–迭代循环实现协作 [53], [54],从而在科学团队合作与科学规律约束下生成更具新颖性与可行性的研究构想 [55], [56]。更大规模的协作框架可管理完整的研究生命周期(问题定义、论文撰写等),并保存持久的研究产物与审计记录 [57];其具身化变体则整合机器人执行与自适应规划 [58]。与此同时,工具集成的进展主要集中在知识图谱驱动的编排 [59] 以及与数百种软件工具、数据库和实验仪器的领域级智能体交互,并配备可溯源机制 [18]。
然而,Sci-LLMs 面临的根本挑战来自科学数据与知识表征的独特特征。与通用 LLM 发展中相对同质的文本语料不同,科学数据集呈现出跨模态与跨格式的极端异质性。例如,仅在化学领域,模型就需要处理分子字符串、三维分子坐标、光谱数据与反应机理,这些均需要不同的处理策略 [60];在生命科学中,模型必须同时处理基因组序列、蛋白质结构、多组学数据与临床影像 [61]–[63];在天文学中,则需要整合跨越巨大时空尺度的光变曲线、光谱观测和多波段成像 [64], [65]。 此外,科学知识本身具有层次化特征,从原始观测数据到抽象理论框架,每一层都有其独特的表征需求 [66], [67]。科学数据往往包含难以直接通过分词或嵌入处理的领域语义:数学公式具有必须保留的精确符号关系 [68], [69];晶体学信息文件则编码了材料科学中至关重要的三维结构约束 [70], [71];如 LIGO 等仪器的时间序列数据中,包含淹没在噪声中的微弱信号,需要专门的预处理以确保物理可解释性 [65], [72]。这些多样化数据类型无法通过传统文本方法充分表征,亟需能够保持领域不变性并支持跨模态推理的新型架构 [73]–[75]。 这种异质性与多尺度特性带来了额外的计算与方法学挑战:从量子力学计算到宏观现象的跨尺度建模,要求模型能够捕捉多分辨率依赖关系 [76];实验测量的不确定性还要求模型能够传播误差边界,并在推理过程中保持科学严谨性 [77]–[79]。这些约束使得科学 AI 与通用语言建模存在根本性差异,必须发展尊重科学认知论基础的专门化解决方案。 这种复杂性自然延伸到 Sci-LLMs 的评测问题。传统的 NLP 基准无法有效衡量领域特定能力。近年来,出现了诸如 ScienceQA [80] 和 MMLU-Pro [81] 等评测套件,分别覆盖从小学到研究生的多模态科学理解,以及量子物理、分子生物学等专业领域的严格评估。然而,它们往往无法反映科学发现的细微需求,例如提出新假设、发现跨领域的非显性联系、或设计实验以验证理论预测。为此,Liu 等人提出了 ResearchBench [82],覆盖 12 个学科的大规模科学发现基准,用于系统性评估 LLM 的假设生成能力。同时,研究者们也开始开发面向过程的评测方法,考察中间推理步骤而不仅是最终答案,例如 ScienceAgentBench [83] 可在文献综述、实验设计和结果解读等复杂科学工作流中进行评估。MultiAgentBench [84] 与 WorkflowBench [85] 进一步量化了模型在协作、协调与工作流合成方面的能力,标志着科学自动化逐步走向可度量、安全感知与可复现。学界也认识到,科学有效性不仅仅依赖于语言流畅性,模型必须遵循物理定律、化学价态规则和生物学可行性 [21], [86], [87]。因此,符号推理模块与约束满足系统开始作为护栏集成到生成过程中,确保输出保持在科学可行的范围内,同时允许在知识前沿进行创造性探索。 在此背景下,已有一些综述研究聚焦于特定方面:如生物医学数据建模 [88], [89];Zhang 等人 [21] 从生物与化学领域出发探讨了 Sci-LLMs;部分工作 [60] 研究了其在科学发现中的应用;Wei 等 [90] 与 Wang 等 [91] 回顾了科学智能体范式与自主科研系统设计;Ni 等 [92] 总结了不同学科下的 LLM 基准。然而,这些综述大多以主题为中心,且往往仅对底层科学数据(预训练、后训练、评测阶段)进行有限触及。 与之互补,我们的综述贡献在于提供一个统一的跨学科综合视角,将数据基础与智能体前沿显式关联起来。主要贡献如下: * 提出统一的科学数据分类法与科学知识层次化模型,为分析科学信息表征的挑战提供新的认识论框架,涵盖从原始观测数据、符号表达到抽象理论洞见的多层次。 * 系统梳理快速发展的 Sci-LLMs 研究版图,覆盖物理、化学、生命科学、地球科学、天文学与材料科学六大领域(见图 3)。 * 系统分析 270 余个预训练与后训练数据集,全面揭示支撑 Sci-LLMs 发展的科学数据现状,提炼出多模态、跨尺度、领域特异性等核心挑战。 * 回顾超过 190 个评测数据集,总结评测从静态考试向科研级科学发现转变的趋势,分析领域特定指标的日益结合与先进评估方法的涌现。 * 识别科学数据管理中的结构性缺陷,并提出面向未来的数据发展议程,倡导构建自主科学发现与科学数据基础设施之间的闭环反馈。
综上,本综述建立了一个统一的参考框架,并为构建可信赖、可持续演化的 Sci-LLMs 指明了清晰路线图,助力加速数据驱动的科学发现。
在享有数十年空中优势并近乎垄断精确打击能力后,美国如今面临一个截然不同、更具威胁的世界——廉价无人机的扩散使大规模精确火力实现了“扩散化”。在任何未来冲突中,无人机都可能构成不可避免的威胁。对美国国防开支的分析现实,近十年来美国防部持续投资于传统与新兴反无人机系统(C-UAS)能力。然而,这些工作因规模不足和紧迫性缺失而受阻。尽管五角大楼在采购专用反无人机能力方面存在短板,但美军在中东的反无人机行动仍值得关注。若不能建立深度储备的强化反无人机能力库,美国的分布式作战战略恐被大规模无人机攻击所压制。这是一个没有万能解决方案的复杂挑战。若缺乏压倒性防御,即使最先进的系统与战术在面对压倒性无人机攻击时都将失效。
为使无人机问题更易处理,本报告的分析仅聚焦于海外作战行动——在此类行动中美军可运用多种手段干扰或摧毁敌对无人机。在美国本土开展反无人机行动则面临不同的政策挑战,这既源于涉及机构数量众多,也因各种权限限制着在美国空域内应对无人机的方式。此外,本报告仅考虑归类于美国第1至3类的无人机或无人航空系统(UAS)。这些小型无人机扩散最为广泛,并对传统防空体系构成全新挑战。
本报告旨在回答三个核心问题:五角大楼是否正在采购足够数量的正确类型反无人机能力?应从近期中东反无人机行动中汲取哪些教训?美国是否已做好应对无人机带来的未来威胁——尤其来自大国的威胁?
为回答这些问题,作者评估了不同类型反无人机防御能力的优势与劣势,研判了五角大楼已采购的用于摧毁无人机的武器系统。
反无人机任务远不止于防空作战,且不能仅交由传统孤立的防空编队承担。
本报告结论指出:不存在能击败所有无人机的“万能”能力。相反,需要一套分层主动防御体系。当多种不同类型的传感器与效应器集成时,可弥补单一系统的弱点,共同实现无人机的发现、跟踪、识别与摧毁。五角大楼已开始采购一些专为反制小型无人机设计的防御系统,但其数量远远不足。其认为需要更多此类系统来防卫优先固定站点,并储备大量成本效益高的拦截器。此外,为应对未来无人机威胁,美国还将新兴技术纳入其分层防御体系。
无人机在现代战场上无处不在;即便是美军也无法击落每一架无人机。虽然摧毁或干扰敌对无人机仍是反无人机防御的关键,但更需要一种以作战韧性为核心的全局性方法。韧性的实现不仅依靠对无人机采取进攻行动(例如击落或干扰其导航系统),还需借助强大的被动防御分层体系以限制无人机攻击的有效性。具备韧性的部队能够经受攻击、调整行动并完成核心任务。为实现韧性,所有部队必须能够防护自身免受小型无人机威胁,并精通防御战术。因此,反无人机任务所涵盖的内容远超过单纯防空,不能仅交由传统孤立的防空编队承担。
本报告共分为六章。第一章概述反无人机行动,并描述可用于击败无人机的多种能力。第二章评估美国国防部(DoD)对反无人机技术的投资。第三章与第四章分别呈现美军在中东行动的案例研究以及美军海军与空军在红海之战中的行动案例。第五章提供来自兵棋推演(TTX)的见解,探讨在持久冲突背景下台海冲突中的反无人机方法。末章分析投资状况、案例研究及兵棋推演见解,进而提出结论与建议。
将反无人机防御列为优先事项并扩展至防空领域之外。无人机防御不能局限于专用防空单位,每个部队都需具备防御小型无人机系统(UAS)的能力。
扩大联合部队的反无人机训练范围。五角大楼需制定并共享最佳战术、技术与程序,确保所有部队接受无人机自卫训练。
提升反无人机原型测试的严谨性与真实性。当前测试评估流程使人们对原型反无人机系统产生虚假信心,因其常使用不真实的敌方无人机模拟品及低精度电磁武器测试。
构建具有分层主动防御与被动对抗措施的韧性防御体系。美军必须具备作战韧性,即在持续执行其他任务的同时击败或承受无人机攻击的能力。韧性需依赖配备多种传感器与效应器的分层主动防御系统。
鉴于没有任何防空系统能提供全天候全面防护,整合被动防御措施对实现作战韧性至关重要。
强化机动部队的移动反无人机能力与战术。美国尚未为机动编队开发合适的移动防御系统,也未为徒步步兵配备充足手持能力。
大规模采购高容量短程动能拦截器。高容量防空解决方案包含新兴技术(如高功率微波(HPM)与定向能系统),这些技术不依赖拦截弹。但同时也需扩增立即可用的枪炮系统与低成本火箭拦截器(如“先进精确杀伤武器系统”)。
投资人工智能赋能的传感器处理与AI指挥控制以加速反无人机杀伤链。整合多样化反无人机系统的指挥控制并利用人工智能加速威胁识别与交战,对提升防御效能至关重要,同时推进五角大楼“联合全域指挥与控制”(JADC2)愿景。
将快速崛起的潜力技术(尤其是高功率微波)转化为正式列装项目。高功率微波是最能有效应对蜂群与高容量攻击的技术。
投资高分辨率被动传感器。远距离高分辨率被动传感器为探测无人机提供了替代主动雷达的生存性方案,并有望增强防御方优势。
本报告旨在全面、深入地剖析中国军工行业的现状、驱动因素、竞争格局及未来发展超势。作为国家安全与民族复兴的战略基石,中国军工行业在“强军目标”和“创新驱动”战略的双重牵引下,正经历着一场由大向强、由跟跑到并跑甚至领跑的深刻变革。 报告核心发现指出,中国军工行业的发展呈现出四大显著特征。第一,规模持续稳定增长,国防预算的稳步提升为行业发展提供了坚实的财政基础。预计未来五年,国防开支仍将与国民经济增长基本同步,其中装备采购与研发费用的占比将持续提高,为产业链各环节注入强劲动力。第二,自主创新能力显著增强,以航空母舰、第五代战斗机、高超音速武器、先进舰船为代表的一系列国之重器相继列装,标志着中国在关键技术领域的“卡脖子”问题正逐步得到缓解。技术创新正从“引进消化吸收再创新”向“原始创新、集成创新”加速转变。第三,“军民融合”深度发展成为核心驱动力。军民融合已从初步探索阶段迈向体系化、深度化发展的新阶段,不仅拓宽了军工技术的应用场景,催生了如商业航天、卫星互联网等新兴产业,更通过引入民营企业的活力与效率(“民参军”),优化了行业竞争生态,提升了产业链的整体韧性与现代化水平。第,资本市场成为改苹的重要助推器。军工资产证券化进程明显加快,各大军工集团通过旗下上市公司进行资本运作、整合优质资产,不仅拓宽了融资渠道,也倒追企业完善现代治理结构,提升经营效率。 然而,报告同样揭示了行业面临的严峻挑战。高端芯片、航空发动机、核心工业软件等关键领域的根本性技术瓶颈依然存在,对产业链的自主可控构成潜在风险。同时,复杂多变的国际地缘政治环境与日益加剧的大国竞争,也给军工产业链的全球协作与供应链安全带来了不确定性。此外,传统军工国企的体制机制改革仍需进一步深化,以完全释放其创新活力。 展望未来,信息化、智能化、无人化将是型造中国军工行业形态的核心趋势。人工智能、大数据、物联网等前沿技术与武器装备的深度融合,将催生颠覆性的作战模式和装备体系。随着“十四五”规划的深入实施,中国军工行业将继续聚焦实战化需求,加速装备的更新换代与升级,并在全球军贸市场中扮演愈发重要的角色。本报告最后为军工集团,民参军企业及资本市场投资者提供了相应的战略建议,以期在百年未有之大变局中把握历史性发展机遇。
该美陆军技术出版物是战术无线电台与战术无线网络的主要条令。本出版物描述了运用战术无线电台及战术无线网络执行任务、功能与作业的非规定性方法,旨在支持所有作战职能并实现部队指挥与控制。本出版物包含新通信与网络能力条令,涉及相互依存且可互操作战术无线电台的运用。主要受众为负责在军及以下梯队操作战术无线电台或运用战术无线网络的领导者、参谋、监督员、规划员及电台操作员。本出版物是系统规划员的标准参考,提供网络规划指导、互操作性考量及装备能力。担任联合特遣部队或多国部队司令部的陆军司令部指挥官及参谋人员应参考相关联合或多国条令。陆军全体训练与教育人员亦使用本出版物。
该条令扩展了野战手册FM 6-02中关于战术无线电台与战术无线网络的基础信息。战术无线电台是指挥控制的关键赋能要素,战术无线网络提升下属决策能力并实现全域集成与同步。战术无线电台及网络支持陆军在整个竞争连续体中的使命。持续作战中的动态战术态势要求多功能且适应性强的战术无线网络。战术无线电台使部队能在从高层梯队至班组的层级间移动与通信,班组级电台在最低层级实现通信与态势感知。本出版物包含战术无线电台操作的重要发展内容,重点强调在军及以下梯队的战术无线中继运用。
包含三章及九个附录:
• 第1章讨论作战环境,审视对抗与拥塞环境中的挑战,解释战术网络及电台如何在陆军行动中实现指挥控制与态势感知。
• 第2章阐述陆军各梯队的战术无线电台与信号支援运用,强调将战术无线电台集成至指挥所的重要性。
• 第3章介绍网络规划,解释安全战术无线电台操作的规划要求与考量,概述中继规划与运用,包含中继战前检查与战前检验。本章还描述通信参谋要素(规划员、频谱管理员及通信安全账户管理员)及规划过程中参谋要素协同活动的重要性。
• 附录A包含识别与应对电磁攻击的信息,阐述克服威胁能力的技巧,包括报告与预防疑似电磁攻击影响的方法,描述电磁干扰类型及最小化对作战或友方通信影响的有效措施。
• 附录B提供中继小组的训练与认证标准,包含信号评估表、战斗操演及小组操演,涵盖支持部队任务的指定作业。
• 附录C阐述作战司令部通信小组的职责,即向作战指挥官及战区陆军指挥官提供安全可靠的通信支援。
• 附录D讨论战术网络环境中的波形及波形应用功能组件,描述无线电波特性与调制方式。
• 附录E详述高频无线网络如何支持指挥控制,探讨高频网络建立方法及传播、天线选择与站点选址对信号传输的影响,包含各梯队运用高频网络实现通信与达成任务目标的信息。
• 附录F阐述儒略日、同步时间与祖鲁时间,提供时区转换表示例及世界时区图。
• 附录G探讨恶劣天气下的电台操作,包含优化通信的技巧,如基于环境因素的电台系统维护如何提升能力并确保通信成功。
• 附录H提供天线选择与技巧信息,含天线及支援设备的现场维修示例,并阐述理解战术无线电台操作与实施有效战术无线通信的重要概念与术语。
• 附录I讨论战术无线电台与平台,涵盖手持式、背负式、车载式及机载电台的增强能力与互操作性特征,包含集成战术网络信息(该网络是保障部队在断连、间歇或受限通信环境下实现鲁棒通信的关键赋能要素)。
本研究开发了一种确定性多参数优化框架,用于模拟不确定性条件下的联合多域作战规划,其中不确定性以规划假设的形式呈现。重点探讨该框架在模拟自适应规划条令概念中的应用。首先论述必要美军条令基础,进而通过基于集合设计理论(一种通过持续保持最大可选设计方案来应对不确定性的项目管理实践)来研究自适应规划。将其与多参数优化公式相结合——通过将规划建模为确定性优化问题并进行参数化求解——同时获得解集与灵敏度分析报告。利用灵敏度分析报告量化自适应规划过程中作战资源条件变化带来的风险。在相关研究中,还通过范畴论语言对军事作战规划特征进行建模。在形式化联合作战计划条令编排的直观表征方面迈出第一步,特别关注多域规划与作战中天然存在的串并行结构——包括阶段化作战规划、分支行动、后续行动及嵌套规划层级。应用范畴论模型在合理凸性假设下为规划结构提供形式化图形表示法。
马赛克战争核心关注三个概念:分散化、异构性与可组合性(Predd、Schmid、Bartels、Drezner、Wilson、Wirth与McLane,2022年)。分散化指"军事力量能力集中于特定武器平台的程度",与单体化构成反义(Predd等,2022年,第326页)。马赛克战争中的异构性指"军队中平台拥有独特能力集的程度",即不同平台间能力集的多样性程度(Predd等,2022年,第326页)。最后,可组合性指"部队要素能以不同方式动态组合以实现作战效果的程度",可视同模块化(Predd等,2022年,第326页)。总而言之,马赛克战争将"精密"系统(定制化、复杂、昂贵、自成体系的平台)分散解构为可动态组合的、功能更异构的小型系统集合(Deptula等,2019年)。
将功能子系统组合成大型兵力包并非新概念。根据国防高级研究计划局(DARPA)观点,马赛克战争区别于其他系统之系统模型的关键在于功能分解理念(Grayson,2018年)。功能分解(即分散化)"将作战行动分解为[最大数量的]实用功能与技术单元",以"明确方式与手段间的关系"(Grayson,2018年)。概念上,"所有搭载传感器的单元均可连接至所有决策单元,继而联通所有执行单元"(Grayson,2018年)。通过将精密平台分解为最大数量的有区别的但可互操作子组件,配置方案的排列组合实现最大化(Predd等,2022年)。"马赛克是系统战战略的兵力设计概念"(Deptula等,2019年)。采用马赛克兵力结构旨在通过部署更多可消耗资产、以更丰富不可预测配置来克服或至少缓解反介入/区域拒止挑战(Deptula等,2019年)。
应对反介入/区域拒止与系统战威胁虽需通过马赛克概念部署动态兵力包,但仅此不足。实施马赛克战争意味着实际物资装备必须在盟国、军种、领域与平台间实现通信,这带来巨大技术挑战。当盟国、军种与领域间平台实现通信后,须进一步作为兵力包(即组合系统)协同运用以实现预期效果。以上所有概念均假定存在适当兵力设计与规划方法。我们认为必须同样以模块化视角审视联合作战规划流程。探索模块化的紧迫领域是多域作战——作为更广泛的联合跨机构全域作战概念的组成部分。
现代美国军事行动以复杂作战环境、多利益攸关方与新发展的领域为特征。总称为联合跨机构全域作战:其中"联合"指多国参与,"跨机构"指多组织协作,"全域"指所有军事作战领域。本研究聚焦全域作战,采用"多域作战"称谓——等同于美国陆军与北约条令术语。
为应对上述挑战,国防部与各军种正研究如何在去中心化与可存活的框架内更快速开发整合新兴作战技术,该框架跨越所有传统作战领域。联合作战涉及多个军种,成功执行的关键在于有效整合多领域。由此产生的多域作战条令(及其计划)涉及两个及以上作战领域的行动与规划。美国联合规划条令(如JP 5-0《联合规划》所述)尚未明确提及多域作战;但第四章"作战设计"中提及多个作战领域,如图1所示。然而美国陆军2022年发布修订条令,正式定义多域作战包含五个作战领域——陆、海、空、天、网络空间——分布于三个维度——物理、信息、人文——其互联关系如图2所示(陆军,2022年)。此外,北约部队认为多域作战是"在所有领域与环境协调军事活动,与非军事活动同步,使联盟能以相关速度产生汇聚效应"(ACT,2022年,第1页)。
图1. 联合作战环境与多域作战。本图中各领域沿"气象与海洋"和"电磁频谱"轴面排列。图源JP 5-0《联合规划》(国防部,2021年,第IV-8页)
多域作战按定义涉及不相交的作战领域;但作战可能同时依赖多个领域的资产和/或穿越多个领域。在多域作战战役规划中,可采用条令结构包括分支行动、后续行动、阶段与支援关系。为充分发挥模块化马赛克作战应对同级与近同级挑战的优势,规划人员需要配套的模块化联合多域作战规划模型——该模型须考虑这些重要条令规划结构。接下来我们探讨联合规划的其他相关方面。
图2. 美国陆军多域作战示意图。陆军条令中,多域作战包含陆、海、空、天、网络空间领域,各领域跨越物理、信息与人文维度。图源美国陆军野战手册3.0《作战》(陆军,2022年,第1-17页)
虽然支持马赛克概念的先进技术对在现代多极化背景下竞争取胜十分必要,但并非充分条件。若缺乏对有效协同运用的充分周密规划,先进模块化物资装备本身可能无法实现预期作战目标。因此多域作战中的联合作战规划具有存在重要性(Deckro、Moore、Fredley、Jackson、Artelli与Van Hove,2009年)。其复杂性如图3所示。尽管复杂,联合作战规划过程的本质可概括为"资源知悉与时间约束"(国防部,2021年,第xiii页)。资源知悉即资源受限。可用资源的数量与类型最终约束可行计划与作战的集合。对此,规划可能在需求或能力基础架构下进行(Deckro等,2009年)。需求型规划以作战需求为主要关注点:制定计划后申请缺失资源使计划可行(Deckro等,2009年)。若未获得所需额外资源,则需承担风险,该风险必须上报指挥链进行重新分配决策。需求型规划假定若特定计划被赋予优先权以降低相关风险,资源实际上可从指挥链高层重新分配(Deckro等,2009年)。
图3. 美国条令联合作战规划过程概览。图源联合出版物5-0图III-2(国防部,2021年,第III-5页)
相反,能力型规划中,作战需求与当前可用资源共同塑造计划:不假设获得额外资源,计划仅基于现有资源制定;但现有资源可能不足(Deckro等,2009年)。能力规划依赖可用资源已确定的假设。但如同任何规划假设,该假设可能变化。通过根据可用资源假设进行规划,同时根据其他可能资源结果及相关风险制定替代计划,可实现需求与能力规划的结合。该概念结合形成本研究一个焦点:开发参数化假设下资源知悉规划模型及相关风险模型。
联合作战规划的"时间约束"方面指制定适时可执行计划的挑战。规划是时间密集型的:必须在作战开始前完成大部分工作。规划也具有时间敏感性:随时间推移,相关信息(如情报产品形式)价值递减,因可能变化会累积。虽始终使用最佳可用情报信息,但非一切可知,即便已知信息在存在思考型对手背景下也可能突然变化。
规划实践中存在及时性与详细程度间的根本权衡,周密应急规划中计划制定与执行间常存在显著时滞(国防部,2021年,第V-14页)。许多支撑详细计划的条件在计划需启用时已被事态发展超越。优良的军事作战规划模型应对此时滞具有鲁棒性。若详细周密计划在作战条件变化后仍能(基本)使用,则投入规划的时间与资源获得更好利用(Garcia-Contreras、Ceberio与Kreinovich,2020年)。指挥宫及其规划人员的合理目标或是最大化周密规划过程的效用——尽管条件可能变化。联合规划中的相关术语是自适应规划,也是本研究另一焦点:开发允许在初始假设出现偏差时快速替换详细计划的规划模型。实践中,这些规划偏差常体现于一组分支和/或后续计划中。通过应对联合作战规划"资源知悉与时间约束"特性,本研究开发能兼顾资源假设、风险与联合多域作战计划快速适应的规划框架,以应对动态军事规划环境。此外,我们针对作战环境挑战的模块化技术响应,探讨模块化规划需求。
鉴于安全环境的动态性及应对挑战的技术手段,联合作战规划方法需要更新模型。首先,美国国防部需要面向未来作战条件不确定性的多域作战规划优化框架。虽存在概率框架,但工具集需要确定性补充。该框架应准确建模并应对联合作战规划的资源知悉与时间约束特性。其次,需要更形式化的方法描绘多域作战规划模块特征。非正式图表常用于安排作战行动、描述联合作战规划中的结构——如阶段规划、分支行动、后续行动与支援计划。基本子结构连接形成更大计划。但规划图表的非正式性限制了其可提供的分析洞察。
本研究含两个主要组成部分(均以联合作战规划为共同背景)。二者通过数学规划公式表示计划及使用参数改变约束(从而改变计划背景)的共同应用相连接。首先,本研究开发确定性多参数框架,用于模拟假设不确定性下的联合作战规划。我们探讨该框架在自适应规划建模中的普遍应用:从自适应规划条令出发,通过基于集合设计理论(一种通过持续保持最大可选设计方案应对不确定性的项目管理实践)研究问题;将其与多参数优化公式结合(通过将规划建模为优化问题并进行参数化求解),同时获得解集与灵敏度分析报告,量化作战资源条件变化相关风险。
其次,本研究通过范畴论语言对军事作战规划特征进行建模。我们在形式化联合作战计划条令编排的直观表征方面迈出第一步,特别明确考虑多域规划与作战中天然存在的串并行结构(包括阶段规划、分支行动、后续行动与嵌套层级)。我们应用范畴论模型,在合理凸性假设下为规划结构提供形式化图形表示法。
本文档剩余部分结构如下:第二章深入介绍理解本研究所需的理论背景;第三章单独聚焦相关应用背景理论的文献综述;第四章描述整体方法论;第五章节5.2与5.3正式构建建模框架并将其应用于所选联合作战规划概念;第六章以结论与建议收尾。
摘要:人工智能(AI)的逐步融合正从条令、程序与文化多个维度变革军事指挥体系。AI重塑了不同指挥层级中集权与分权之间的平衡关系。以约翰·博伊德上校的“观察-调整-决策-行动循环”(OODA循环)作为军事决策过程(MDMP)的通用模型,可以清晰看到AI如何影响从信息收集到战术执行的每个决策环节,并评估其对于作为分权式领导哲学的任务式指挥(MC)产生的深远影响。西方军队拥有悠久的分散决策传统,可能特别适合将AI转化为赋能工具而非监控手段。
问题陈述:人工智能(AI)的整合如何影响军事决策过程(MDMP)与任务式指挥?
核心价值:将AI有效融入MDMP以增强而非削弱任务式指挥,将帮助指挥官在集中与分散方式间灵活切换,从而最大化决策的准确性与速度。
人工智能(AI)与军事行动的融合对传统指挥控制(C2)模型及军事决策过程(MDMP)构成深刻挑战。全球范围内,军队日益依赖AI提升跨域作战的速度、精度与协同性。然而这种技术转型也直面西方部队的核心领导哲学——其中任务式指挥居于中心地位。此处任务式指挥是一种根植于权力下放与下属主动性的领导风格与条令原则。随着AI系统提供前所未有的数据接入能力,高级指挥官必须重新审视权力分配方式、复杂态势解读方法以及跨层级信任维持机制。
为深入理解技术创新对条令与文化带来的复杂性,本文采用约翰·博伊德的OODA循环作为MDMP的通用模型(而非其历史或空军专属背景)。由此延续詹姆斯·约翰逊的论点:将AI融入各级军事流程与结构可能反直觉地提升人类决策者的重要性。
任务式指挥作为领导理念可追溯至19世纪普鲁士军事改革。如今大多数西方军队都追求这一理念。各类手册与条例中的具体定义虽有差异,但通常包含权力下放与基层领导者赋能。乌克兰应对俄罗斯入侵的表现(尤其在前几个月)凸显了此方法的优势:国内外观察者均将乌克兰军队的战术优势归功于其成功采用任务式指挥。相反,俄罗斯僵化的“细节化指挥”则是由集中化、指令性领导构成的反向概念。
北约将任务式指挥定义为“一种提倡集中明确意图与分散执行的指挥哲学;这种风格只说明‘做什么’而不必然规定‘怎么做’。”不同作者通过“集中计划与分散执行”或“集中控制、分散执行”等表述模糊了这一原则。北约的定义似乎引发了对任务式指挥的自上而下理解,认为最终只有执行环节被下放。但若如此理解,这便成了一个空洞概念——因为即使在俄式指挥理解中,执行也是分散的。
因此对任务式指挥的一致性解读至关重要:应强调只有意图是集中的,从而允许下属尽可能自主决策与行动。额外的集中化可能反映军事文化,这或许是武装力量难以成功采纳任务式指挥的主要原因之一。然而超出最低限度的集中化与原初意义上的普鲁士“任务战术”(Auftragstaktik)理念相悖。
任务战术(任务式指挥通常对应的德语原词)的优越性在二战中尤为明显。马丁·范克里费德在其著名研究《战斗力》中解释了为何尽管盟军具有战略优势,德军仍能在战争最后阶段前保持战术优势。约翰·博伊德上校在《冲突模式》演讲中分析任务式指挥对MDMP与C2的影响时也得出类似结论。这种程序化视角完全符合历史解释:普鲁士将军发展任务式指挥主要源于19世纪的技术创新——远距离与高速度意味着集中指挥战斗不再可行。
若任务式指挥的起源至少部分源于技术创新导致的军事领导与军事行动速度分化,那么人们可能追问冷战结束后新技术的引入如何影响任务式指挥。这对那些将任务式指挥视为与协同努力相悖的“必要之恶”者尤其具有诱惑力——此类观点在1990年代便已存在:“任务式指挥将随最后一家非数字化连级指挥部的消亡而死亡”,并在自动化与人工智能(AI)背景下重获关注。
然而鉴于任务式指挥的优势,也有人指出“与此趋势相关的潜在风险是以任务式指挥为代价的微观战争管理”。这些作者与其他学者坚定认为应保留任务式指挥。但任务式指挥能否且应否存续的问题依然存在。
军事指挥应将集中化与分散化视为谱系两端而非对立选项,指挥必须根据任务背景与内容在此谱系上调整。这需要整体性理解任务式指挥,我们通过“指挥-领导-管理”框架来实现。
该方法溯及斯蒂芬·邦吉,被英军领导条令采纳,经帕特里克·霍夫施塔特定义强化,并于2025年通过瑞士国防部《2030愿景战略》正式用于瑞士武装部队。简要说明将展示“指挥-领导-管理”(CLM)框架如何帮助领导者应对任务式指挥的三个核心方面:其一,其作为军事条令的意义;其二,其作为领导哲学的文化意义;其三,通过C2与MDMP体现的程序与结构意义。这种整体视角一方面有助于认识到这个三元模型已足够,另一方面也表明任务式指挥的三个维度相互关联且需相应分析。
该模型定义如下:指挥以任务为中心,领导以人为中心,管理以组织为中心。这些方面体现在组织的不同领域:
概念上,任务式指挥并非标准化战术、战役或战略方法(如机动战、消耗战或游击战、多域作战、或网络中心战)意义上的条令。它是通用指挥条令,可与任何给定作战条令不同程度地契合。
从文化角度考量任务式指挥时,审视其成功应用的前提是有益的。相关实施障碍已借助埃德加·沙因的组织文化模型得到彻底检视。但影响是双向的。若任务式指挥赋能追随者,这无疑会培养其信任、自信与主动性——这些特质反过来又有助于任务式指挥的成功应用。这种文化无法在紧急状态下临时建立。因此唐纳德·范格里夫建议“任务式指挥必须从基础训练开始就整合进所有教育与训练中”。
正如任务式指挥明显影响条令与文化,它同样影响流程与结构。与其他领域一样,这里的影响也是相互的。但任务式指挥主要影响流程而非结构;最终C2结构主要是政治或战略决策,因而是任务式指挥的前提而非结果。
就相互依赖性而言,两点尤为突出。MDMP主要与条令相关,而C2结构主要与文化相关。前者是因为决策过程最终不过是任务完成的通用形式,即填充了条令内容的程序蓝图。后者源于纯社会学考量:在给定结构内距离更近者更可能相互影响。例如,若防空部队隶属陆军,其将通过更密切交流在文化上趋同于陆军;若其属于空军,则也会融入相应的文化领域。
各国武装力量的MDMP具有本国特色。但需通用流程以获得普适性答案。博伊德描述为OODA(观察、调整、决策、行动)循环的通用流程适于此目的,它能阐明任务式指挥与MDMP的依赖关系而非特定国家形式。博伊德本人曾用OODA框架解释二战中德军任务式指挥方法的显著优势:
博伊德的核心论点之一是:成功作战意味着使己方OODA循环比对手转得更快,并通过速度、干扰或欺骗理想化地瓦解对手的循环。远在博伊德之前,人们已认识到速度在战争中的关键性。例如克劳塞维茨用“慧眼”术语解释——军事天才的特质在于“快速识别那些通常被思维忽略或需经长期学习与反思才能感知的真理”。
显然AI能促进此种快速识别。正如19世纪技术进步带来加速,21世纪的创新也反映在OODA循环中。下文具体探讨将AI整合进MDMP或更广义的OODA循环。因此需更详细解释博伊德的OODA循环。
最初由美国空军飞行员兼战略家约翰·博伊德上校为解释空战决策而开发的OODA循环,现已被许多西方军队采纳为现代冲突中适应性决策的概念框架。其抽象性允许开展独立于国家条令或部队结构的概念讨论。遵循博伊德的核心思想——军事成功源于比对手更快、更连贯地运行此循环,后续章节将审视人工智能如何影响OODA循环各步骤,以及这可能如何根本改变现代战争中军事决策过程的结构与动态。
OODA循环第一步——观察——指从作战环境收集信息。传感器与数字系统生成不断增长的数据量,塑造着当代冲突中的这一步骤。情报监视侦察(ISR)系统、卫星图像、无人机视频流与网络情报生成的信息密度远超人类操作员处理能力。与过去信息及时性或可用性成为限制因素不同,现代部队日益面临相反问题:原始数据过剩而转化为可行动知识的能力有限。
人工智能(尤其是机器学习与模式识别)有助于缓解数据过载。它能实现数据流的实时快速过滤、聚类与优先级排序。人工智能辅助系统可自主检测异常、分类威胁并将多样输入融合成连贯态势图,而非仅仅依赖人工分析。但人工智能辅助观察的准确性取决于数据质量与算法设计,这给军事决策过程引入了新的不确定性来源。
人工智能辅助观察的具体应用与可靠性还取决于所运用的指挥层级。战术层级上,人工智能主要用于实时传感器数据融合、目标识别与快速威胁分类,直接支持机动部队。这些系统在严格时间约束下运行,常嵌入无人机或火控系统等平台。
战役层级上,人工智能通过预测建模与战役兵棋推演,助力多单位协同、兵力分配与预测敌方行动。此处数据需求更广,系统必须综合不同领域与编队的输入。
战略层级上,人工智能日益用于情报分析、长期情景规划及信息与网络领域新兴威胁检测。此层级焦点从速度转向跨地理政治、经济与军事指标的模式识别。因此各层级在数据量、可靠性与决策周期方面呈现不同挑战。人工智能必须根据技术与指挥层级背景量身定制。
OODA循环第二步——调整——是博伊德理论的核心。观察提供数据,调整赋予其意义。博伊德将此步骤描述为文化背景、先前经验、训练与分析推理的综合。关于任务式指挥与人工智能,约翰逊强调:若未将调整步骤理解为优先事项,博伊德理论就失去了核心信息。值得注意的是,克劳塞维茨的“慧眼”指的是调整而非决策。
调整最终塑造信息解读并导向行动选项的含义。人工智能不仅通过分析数据,还通过构建与呈现数据促进此过程。现代指挥系统中,人工智能工具通过突出关联性、评估风险与建议可能发展来支持指挥官。但这些输出依赖于基于历史数据与定义参数训练的算法模型。若未谨慎整合,此类系统可能促进对态势的狭隘解读并减少可考虑选项的多样性。
因此初级与高级领导者必须理解人工智能支持而非取代人类判断。在任务式指挥中,主动性独立决策至关重要,指挥官必须保持必要时质疑或否决人工智能生成建议的能力。
OODA循环第三步——决策——指基于处理与解读后的信息选择行动方案。传统上,这一步骤依赖于指挥官经验、态势感知与作战意图。随着人工智能整合,该决策过程日益得到仿真模拟、分析系统与兵棋推演等人工智能工具的支持。
这些工具具有明显优势。它们能在更短时间内评估更广泛场景、量化风险并可视化可能结果。尤其在时间紧迫或复杂情境下,此类系统有助于减轻认知负荷并提升决策速度。但它们也引发了对下属决策授权的问题。随着对人工智能系统信心的增强,初级战术领导者很可能倾向于不经进一步审查即遵循人工智能建议——尤其在时间压力下。
这种动态模糊了决策支持与决策自动化之间的界限。研究表明,操作者在高压环境中常不经批判性审查即遵循算法建议——这种现象称为自动化偏见。虽然部分自动化在技术上可行,但战略分析师强调人类监督的持续必要性,尤其在涉及法律责任与作战伦理的背景下。在任务式指挥框架内,决策必须保持可理解、透明与可溯源——既对承担最终责任的指挥官,也对信任至关重要的下属。对指挥官而言,透明度确保问责制并实现有效领导;对下属而言,它培养信任;黑箱系统难以为任务式指挥所需的主动性信心提供基础。挑战在于保持人类对机器生成选项的权威性,即使这些选项显得更高效或统计上更合理。
OODA循环第四步——行动——指执行行动方案。传统作战理解将此步骤与指挥层级、通信和兵力部署相联系。但随着自主与半自主系统日益广泛应用,这一步骤正经历重大变革。无人平台、巡飞弹群与算法控制的防御系统能比人类更快响应,尤其在对抗环境中。
技术上,将人工智能融入战术执行(最低指挥层级的行动)具有显著优势。自主系统能在毫秒内响应、在拒止环境中运作并基于预定参数执行复杂机动。但这些能力伴随代价。当系统拥有更大操作自由时,会引发对问责制、交战规则与适应性的担忧。因误解命令或未预见环境变量导致的人类意图与机器执行间的操作错位风险客观存在。
这些担忧并不意味着人类决策或行动本质上优于人工智能或自动武器。人类会犯错——无论有意或无意。他们违反法律(无论是自我约束还是外部强制)并违背道德标准(无论是个人还是普世标准)。错位不仅是人机问题,更是首要的人际问题。然而,人们更愿意接受他人而非机器所犯错误。这可能非理性,但公众在机器人出租车撞到儿童时立即拒绝该技术——即使机器人的错误概率显著低于普通人类驾驶员。
但对归因与问责的渴望不仅是民众的直觉需求。归根结底,这是启蒙运动对国家行为的要求:人类应受保护免受执行部门任意性影响,司法系统应纠正可能错误以恢复正义。会犯错的指挥官可被定罪惩罚,但会犯错的机器人不能。即使这种问责要求源于情感或直觉而非理性,它在法律哲学层面仍然有效。
在任务式指挥中,行动步骤必须保留一定程度的人类监督。虽然某些功能可为速度效率而委托,但整体框架必须确保行动始终受意图而非仅由代码引导。这包括干预机制、中止标准与执行链内人机权限的清晰划分。
潜在对手可能确实不共享相同法律或伦理约束担忧。但这并非新问题:军事伦理与国际人道法长期应对 此类规范的对手挑战。《日内瓦公约》明确:对手的漠视不能免除我方义务。从军事伦理视角看,问题似乎更复杂——正如关于报复的考量所表明。但同时,若因对手持不同标准而拒绝我方标准,无异于放弃自身伦理准则。我们对这些原则的承诺不依赖于互惠,而在于扞卫我们所宣称的价值观。
将人工智能融入OODA循环既是军事决策的逻辑演进也是根本转变。观察、调整、决策与行动所有四个步骤——人工智能系统具备提升速度、减轻认知负担与管理超越人类能力的复杂性的潜力。由此支持博伊德的总体目标:在对手决策周期内运作并获得战术与战役优势。
从任务式指挥视角看,挑战不在于阻止人工智能使用,而在于确保其整合尊重分权化、意图驱动领导的基本原则。人工智能最终导致军事决策过程与任务式指挥更趋集中还是分散,取决于其能力如何操作化运用。
在人工智能时代,军事领导者不能再通过集中控制与分散执行的二元对立视角来概念化指挥体系。相反,指挥构成一个自适应连续统一体,军队必须根据作战环境在此框架内实时重组。技术进步有时促进集中指挥,有时则催生基层更大自主权。例如,人工智能实现的“全知作战态势图”可能诱使高层领导通过集中决策中心对每个战术行动进行微观管理。此外,潜在网络攻击与电磁频谱复杂性表明,人工智能或许能更有效地增强战术边缘的分散主动性。因此,集中控制与分散执行应被理解为需动态调节的统一体两极,而非互斥选项。
西方军队持续探索这一集中分散连续统一体,根据作战需求调整部署态势。近期作战反馈证实了此种灵活性的重要性。这种辩证关系并非新事物;它延续了主张“集中意图、分散执行”的任务式指挥传统。可通过衡量任务相关因素、人力因素与组织因素影响力与权重的框架进行评估。对西方武装力量而言,这种分布意味着唯一可行的集中分散方法就是与北约任务式指挥模式广泛契合的方案。人工智能不仅未削弱这一基础,反而加剧其内部张力:它既能实现近乎全知的集中控制,又可支持本地级自动化决策。
真正流畅敏捷的指挥理解必须能根据层级与所行使指挥职能调整集中化程度。在战略与战役层级,一定程度的集中控制对维持共同愿景与行动统一仍至关重要。这些层级已可见稳健的集中式人工智能系统(如大语言模型)被用于情报聚合与战役规划支持。这些战略人工智能工具能处理海量数据并生成全局选项,有助于在指挥高层形成“人机混合判断”模式。
但即便在这些层级,指挥官仍需保持条令灵活性以调整领导风格。复杂战场可能要求暂时重新集中控制(例如为协调多域作战),随后随着态势演变及主动性需求提升,重新向下属层级授权。
而在战术层级,分散主动性对于应对实时战斗混乱至关重要。嵌入式人工智能(边缘AI)与自主系统将发挥决定性作用。智能传感器、板载贝叶斯算法与轻量化决策支持系统将为前线单位提供独立于上级指令的即时分析与行动能力。这强化了增强型“观察-调整-决策-行动循环”概念——其中“观察”特别是“调整”步骤被人工智能加速——而“决策”与“行动”步骤可在本地以知情方式执行,同时保持与统帅意图一致。此种整合使小单位能比对手更快完成决策循环,从而助力实现当代军事条令追求的决策优势。
在这种人工智能增强人类效能的概念化模型中,军事指挥在集中与分散间的持续适应成为数字演进的关键路径。下层分散自治不意味着控制缺失:指挥通过持续信息流保持可视性,仅在必要时干预或根据战略目标重新调整行动。所有这些考量导向军事指挥的适应性连续统一体。
与此同时,“指挥-领导-管理”模型的每个领域从人工智能赋能的可适应性中获益各异:指挥受益于集中式人工智能工具,其支持战略定向并确保意图清晰传达;战术人工智能正深刻变革领导方式——战场指挥官现配备前所未有的本地决策支持工具(如增强型观察-调整-决策-行动循环所示),允许在紧密耦合总体战略方向的前提下进行半自主行动;最后,管理可借助分析型人工智能系统优化后勤(这通常倾向于集中化),但也能通过自组织工具(如根据前线实时需求动态分配补给的“伽拉廷”模型)将特定决策授权下层。
如此,人工智能发挥差异化催化作用:在综合全局视野时为指挥实现集中化,通过加速执行赋能最基层领导力,借助跨职能优化为管理实现理性化。
从更批判的视角看,这种集中与分散间的流畅转换(虽理论理想)却与军事组织内根深蒂固的结构、条令及文化力量冲撞。一方面,西方武装力量深浸于任务式指挥哲学与辅助性原则,强调授权与下属主动性。这些原则代表重要的条令遗产,源于必须在不确定性与战场混乱中行动的需求。它们断言领导者必须界定清晰意图,随后放弃对执行手段的控制,让有能力的追随者在机遇出现时抓住它们。这种信任与赋能文化是任何有效分散方法的前提。
另一方面,每次技术革命都重新诱发集中化倾向。当今,超连接性、海量数据与人工智能赋予军事总部全局监控感,可能导致决策权重新集中的趋势。在和平时段或应对扩散威胁时,集中控制为优化协调显得合理;“集中规划是对优化能力信念的体现”。这种工业时代遗留的反射动作,可能受“控制幻觉”等认知偏见强化,有损实战所需的响应能力。它可能与西方军队珍视的任务式指挥哲学相悖。
这种张力反映技术架构与组织架构间的潜在冲突。例如,法军观察到特定“集中化数字工具”与官僚复杂性可能“减缓、瘫痪或挫伤下属主动性”。人工智能可能通过强化自上而下、无处不在的控制加剧这种功能障碍,也可能通过为下属提供独立且洞察性行动的手段来帮助纠偏。
关键区别在于所采用的指挥文化。西方军队拥有悠久的分散决策传统,可能特别适合将人工智能用作赋能工具而非监控手段。但这需要持续投资于训练、教育及条令调适。人的因素——特别是指挥层级间的相互信任——仍是此转型的核心。学会信任人工智能生成的建议至关重要,同时需避免陷入盲目授权或干预。
同样,辅助性原则经验较少的军队也能演进:中国军事思想家近期的条令反思也倡导新兴技术支持下更大灵活性与地方主动性。这表明文化决定论可被作战现实与人工智能带来的机遇打破。
这些分析汇聚于对适应性指挥理论模型的必要性——该模型能可视化人工智能时代集中与分散间的动态流动。可设想一个三维框架,其每条轴对应一个关键因素:指挥集中度(从完全集中到完全分散)、指挥层级或行动规模(从战略到战术)、所采用人工智能类型(集中式云端人工智能/大语言模型、分布式贝叶斯人工智能、嵌入式边缘人工智能)。
在此三维空间内,指挥不占据固定点;而是在反映变化中作战需求的可能体积内移动。例如,一次纵深特种作战可能表现为战术轴上高度分散的点,以嵌入式人工智能为主;相反,初始联合部队战役可能更靠近战略-集中极,由情报聚合人工智能系统支持。模型是动态的:此空间内的轨迹或向量将说明随着作战展开、响应态势变化(新兴威胁、通信中断、机会窗口),指挥模式从一种向另一种的过渡。
“指挥-领导-管理”模型丰富了这种三维性:指挥平行于“指挥层级”轴定义的平面,因其捕捉条令方法;领导维度与“集中程度”轴平面对齐,因其代表人的方法;管理则平行于“所采用人工智能类型”轴定义的平面,因其反映结构方法。
此类概念框架允许可视化转换——例如,从交战开始时集中控制,随着行动复杂化逐渐向下属单位授予更多自主权,随后可能为同步决定性行动暂时重新集中,等等。
它也揭示不同领域的具体贡献,突显根据在模型内位置不同,哪一维度成为主导。该模型应用于三维空间时,为未来指挥提供批判性与前瞻性双重视角:批判性因其挑战军事领导者直面认知偏见(如过度集中或过早放权倾向),促使其沿最优谱持续重新定位;前瞻性因其开辟人工智能赋能的新型敏捷组织形态之路。
最终,人工智能时代的指挥可被理解为一个复杂自适应系统,其优越性在于比对手更快重塑自身运作模式的能力。这种条令、智力与结构上的敏捷性——而非任何特定技术——将构成未来的决定性优势。因此,挑战不仅是集中与分散间的辩证,也不仅是更快速优化的观察-调整-决策-行动循环,而是条令、文化与组织各扮演关键角色的多维动态。
应对此转型需超越技术创新。它需要适合人工智能时代的新条令、新文化与新指挥结构——这些既要保留任务式指挥固有的敏捷精神与胆识,又要利用人工智能提升决策准确性与速度。人工智能整合迫使从抽象原则转向具体应用:持续调整集中/分散刻度盘需要持久的智力纪律、组织敏捷性,以及最重要的、面向未来的条令。
这一提出的动态模型仅是迈向更高敏捷性的概念一步:它为思考变革提供全面框架——这是在军事条令、文化、结构与程序中实施变革的必要条件。
在持续演进的数字时代,大数据正通过驱动智能系统实现变革性突破,尤其在机器人技术与军事科技领域。来自传感器、监视系统与作战系统的大规模数据流集成,使机器能够以更高精度、更快速度及更强自主性做出决策。本文探讨大数据分析如何增强机器人平台与军事应用的功能性与智能水平,深入研究数据驱动系统背后的技术、任务关键型作战所需的实时处理能力,以及预测分析如何支撑战术规划与自主系统行为。本研究同时重点关注当前技术创新、伦理关切及在这些高影响领域利用大数据构建响应更敏捷、智能更先进系统的未来机遇。
数字化转型时代,大数据崛起已成为塑造各领域智能系统的基石,尤以机器人学和军事技术为典型。“大数据”指体量极其庞大、结构复杂且随时间呈指数级增长的数据集合。这些数据集通过先进算法与人工智能模型处理,可揭示推动自动化、实时决策与预测性智能的关键洞察(Katangoori & Katangoori, 2025)。在智能系统中,大数据与机器学习的融合使机器能够模拟人类认知,并在不可预测环境中做出自适应响应(Weng等, 2024)。在机器人领域,大数据促使开发出能够从历史行为与环境刺激中学习的机器。应用于医疗保健、制造业与搜救任务的机器人现已配备传感器与摄像头,生成海量结构化和非结构化数据。这些信息经AI算法处理后,可协助机器人安全导航、检测异常并实现无人干预自主决策(Shen等, 2023;Hayyolalam等, 2021)。军事系统经历类似变革。国防作战日益依赖从卫星、无人机、雷达与可穿戴设备采集的实时数据。通过分析这些数据流优化后勤、识别敌军动向、自动化监视并支持战略决策(Oniani等, 2023)。生成式AI应用于这些数据集时,还能助力军事分析人员快速精准地模拟场景、评估风险并调整计划(Gaddala, 2023)。
大数据集成于智能系统的核心在于高级分析技术的应用,包括描述性、预测性与规范性分析。描述性分析提供任务或机器人操作的历史视角;预测性分析预判系统故障或潜在威胁;而规范性分析为复杂情境提供决策选项(Smith & Patel, 2024;Topol, 2024)。为清晰阐释大数据在这些领域的影响,表1对比总结大数据如何支持机器人技术与军事技术的智能功能。
表1:大数据在机器人技术与军事技术中的功能对比
特性维度 | 机器人技术 | 军事技术 |
---|---|---|
数据来源 | 传感器、摄像头、环境测绘工具 | 卫星、无人机、雷达、生物识别系统 |
核心应用 | 导航、避障、手术操作 | 监视侦察、后勤保障、自主武器系统 |
分析类型 | 预测性维护、行为学习 | 威胁检测、场景模拟、预测性规划 |
人工智能集成 | 强化学习、神经网络 | 生成式人工智能、检索增强生成代理、深度学习 |
决策能力 | 基于环境的实时调整 | 实时约束下的战略决策支持 |
面临挑战 | 传感器校准、实时数据集成 | 网络安全、数据完整性、自主武器的伦理使用 |
实现效果 | 提升效率、安全性与自主性 | 增强任务效能、主动防御机制 |
本引言为深入文献研究与案例应用分析奠定基础。后续章节将基于现有学术成果与新兴创新,对这些主题展开更详尽探讨。
本概念文件共分五章,并附支持性术语表。主要内容概述如下:
a. 第一章——引言。介绍国防顶层概念及其对新型作战方式的意义,同时阐述指挥控制的关键主题(包括术语体系)。
b. 第二章——背景与军事问题。描述冲突形态与作战环境的演变特征,进而分析这些变化对指挥控制的影响及一体化部队的指挥控制需求,由此引出军事问题的界定。
c. 第三章——应对挑战。将军事问题分解为指挥控制面临的三个具体挑战,通过逐一剖析明确所需指挥控制属性及其支撑功能。
d. 第四章——概念方案。阐述培育和维持这些支撑功能所需采取的措施,从而夯实所需的指挥控制属性。这些方案将为国防体系内的指挥控制发展提供概念基础。
e. 第五章——后续工作。概述为深化本概念主题及构想2030年后指挥控制形态需开展的后续研究。
现有指挥控制能力难以满足一体化部队作战需求,且无法应对预期作战环境中的复杂困境与挑战。
指挥控制能力发展必须:
图4.1 -提议的“ADAPT”指挥控制运作模式
美国空军部的未来网络须无缝整合安全性与灵活性,确保空、网、空间作战行动具备韧性的连续性,以防御近似同级对手。本战略通过六大关键目标进行规划,阐述空军部将如何构建韧性自适应加密网络,为作战人员提供不间断的实时数据共享——在每个接触点提升作战效能与用户体验,从而赋能任务成功。
美空军部正面临日益先进的技术对手,其发动网络攻击的速度可能超过人类操作员的响应能力。新兴技术加速了对手入侵和操纵网络的能力——而所有任务成功都依赖于这些信息技术。与此同时,空军部还必须应对全球范围内数据接入和便捷连接需求的增长。这一挑战因网络环境特征而加剧:当前环境充斥着分散的解决方案,而非满足成本、进度、性能需求并提升用户体验满意度的统一企业级方案。因此,空军部的未来网络必须支持从稀疏连接的作战地点到固定设施、混合远程办公及盟国的聚合与分流环境中的安全操作。它必须实现核心与边缘的无缝连接,对所有形式的服务中断展现出根本韧性,并能轻松重新配置以适应不断变化的任务需求,同时优先保障终端用户的满意度与作战效能。过去五年间,空军部通过两大方式转变了对这些现实的应对:首先,将战时态势调整为应对世界主要大国之间不断演变的战略竞争,推动防御网络攻击日益先进的需求,并通过先进作战能力提升战术效能;其次,近期对正常运行的干扰推动向混合与远程办公的重大转型,这已成为确保空、网、空间作战连续性的必要举措。空军部的未来网络必须反映这些转变,同时涵盖网络安全与网络灵活性。无论空军部在何处引入安全性,都必须同步引入灵活性,反之亦然,确保二者协同作用以提升并持续改进用户体验。
一、引言
一.A. 网络战略论点
一.B. 作战人员效益
一.C. 当今空军部网络
二、目标与赋能能力
二.A. 目标一:增强网络韧性
二.A.1. 赋能能力:采用软件定义广域网实现传输路由优化
二.A.2. 赋能能力:多样化传输手段
二.B. 目标二:提升作战可扩展性与灵活性
二.B.1. 赋能能力:跨域解决方案
二.B.2. 赋能能力:商用机密解决方案(CSfC)
二.B.3. 赋能能力:网状网络技术
二.C. 目标三:保障未来网络安全
二.C.1. 赋能能力:下一代网关
二.D. 目标四:简化网络管理
二.D.1. 赋能能力:业务信息模型一致性及增强
二.D.2. 赋能能力:集中化秘密互联网协议路由器网络域
二.D.3. 赋能能力:IPv6可用性
二.E. 目标五:整合网络环境
二.E.1. 赋能能力:任务伙伴环境
二.E.2. 赋能能力:战区可部署通信能力
二.E.3. 赋能能力:空军部作战网络
二.F. 目标六:赋能未来劳动力
三、结论
四、附录
四.A. 缩略语表
四.B. 图表索引
四.C. 参考表
提升军事训练技术对增强战备水平与决策能力至关重要。本文介绍一种基于人工智能技术模型构建的实时军事训练模拟器综述,旨在使战争场景更具真实性与适应性。现有模拟器往往难以有效响应实时变化,本研究致力于填补这一空白。本研究目标是利用人工智能技术开发能够提供高响应度与逼真训练体验的模拟器。方法论包括设计与实施基于人工智能的模拟器,并评估其在动态训练环境中的性能。结果表明:集成人工智能技术可实现更流畅的交互式模拟,使受训者能够参与模拟实时作战场景的响应式训练,从而提升决策能力、战略思维及压力下的适应能力。结论表明,在军事训练模拟器中应用人工智能技术,通过创建更具适应性与真实性的场景,弥补了当前训练技术的不足。这将使军事人员更好应对现实挑战。
现代战争日益复杂化,要求军事训练方法持续进步以应对快速变化且不可预测的作战环境。本文提出一种将大数据与实况、虚拟与构造(LVC)模拟相结合的新方法。通过综合考虑多类因素,该方法提升了作战效能(WCE)分析的准确性,支持武器研发、作战规划与训练工作。其旨在解决当前局限并为该领域未来研究奠定基础[1]。POSNA领导力项目帮助小儿骨科手术领导者掌握有效指导团队的核心技能[2]。本章阐明作战胜利取决于根据情境平衡时间、空间与兵力。成功无固定公式,领导者必须理解这些因素的相互作用。例如:放弃空间可换取时间,在正确时间与地点投入合适兵力更有效[3]。本研究引入虚拟射击场以辅助士兵战术作战训练。其包含丛林、乡村、海岸与雪域等真实三维环境,以及武器与目标。士兵使用虚拟现实眼镜与VR控制器进行训练,参与者认为该系统真实且易用[4]。数字孪生技术广泛应用于军事等众多行业以提高效率并节约成本。数字孪生是通过传感器采集数据建立的物理系统虚拟映射,有助于预测系统行为。该技术在失误代价高昂的军事系统中尤具价值。本研究探索数字孪生在军事领域的应用、优势及未来前景[5]。通过集成机器学习、自然语言处理与计算机视觉等工具,人工智能驱动模拟能够以高度真实性建模复杂战斗情境。这不仅提升决策与战略思维能力,还使军事人员更好适应不可预测的高压环境。图1显示2000年至2025年相关论文发表数量的增长趋势:初期缓慢增长,2010年后增速加快(如图1所示)。本文通过引入人工智能驱动的实时军事训练模拟器应对这一挑战。该模拟器旨在提升训练场景的真实性与适应性,为受训者提供更具沉浸感与影响力的学习体验。本综述将聚焦以下关键目标:开发灵活框架以建模战争场景中的不同状态与转换,作为交互式自适应训练模拟器的基础;在动态训练环境中测试模拟器,评估其在变化条件下的有效性;验证模拟器作为高效训练工具的价值,弥补当前军事训练系统的不足,提供更真实自适应的体验。
通过引入模拟技术的创新方法、评估人工智能系统在动态训练环境中的有效性,并解决传统训练方法的局限,本综述旨在为军事训练技术的未来发展奠定基础。
本文首先阐述了对能够模拟变化战斗条件的更好训练工具的需求,介绍了旨在提升军事训练真实性与适应性的人工智能驱动模拟器,重点帮助士兵快速做出更优决策。文献综述部分考察了虚拟现实(VR)、增强现实(AR)与人工智能等当前模拟技术,并讨论了它们如何借助物联网(IoT)与自适应学习改善训练。其指出了在真实性、适应性与成本方面仍需解决的不足。方法论部分描述了如何利用机器学习与自然语言处理等人工智能工具创建模拟器以生成真实动态场景,并讨论了使用虚幻引擎(Unreal Engine)构建真实环境的挑战与涉及的伦理问题。在对比分析中,本文比较了虚拟现实、实况模拟与人工智能系统,表明人工智能模拟器更具灵活性与真实性,但也更昂贵复杂。结论部分说明该模拟器通过提升训练的真实性与灵活性来改善军事训练,使士兵更好适应现实情境。未来工作部分讨论了利用增强现实/虚拟现实扩展训练场景、提升效率与可扩展性,以及运用物联网实现实时反馈以克服成本与可及性问题的计划。
本报告审视俄罗斯在乌克兰冲突三年后对军事战略与常规军事行动理念的演进。评估了俄军精英层对诸兵种合成作战、海面作战与空权控制作战(含远程精确打击)的思考,探究其对如何调整国家军事战略与作战理念以应对未来战争中武装冲突形态变化的观点。
研究首先分析构成俄军作战理念基石的俄罗斯战略思想,继而探讨三大作战领域:诸兵种合成作战、海面作战及空权控制作战。俄军在上述领域均遭遇重大意外挑战,包括无法实施有效的合成进攻、丧失黑海控制权、未能取得制空优势等。研究团队主要援引俄军政精英广泛阅读的《军事思想》等权威期刊,同时参考俄顶尖智库、中央报刊发布的军事专家评论及官方条令。
报告指出:尽管技术进步导致武装冲突形态发生重大战术变化(尤其无人系统的广泛运用),俄罗斯对常规军事行动的战略与作战思维仍基本延续战前模式。对多数俄军精英而言,纵使俄军在战争中遭遇意外挫折,战局仍证实了战前对武装冲突特性的预判。因此,俄方对武装冲突形态的认知几无演进,其战略理念与作战条令亦无根本性变革迹象。
俄军精英选择以确认偏误与技术崇拜的独特混合方式应对新兴军事挑战。他们坚称既有理念始终正确,俄军在乌受挫主要归因于:有效且长期秉持的理念存在规划与实践缺陷,同时西方对乌空前未料的强力支援。尽管训练不足亦有影响,但俄军事思想家在战役层面鲜有提及需通过系统性训练改进来解决上述失败。他们认为应对之策在于采用人工智能、下一代无人系统等先进技术及适配的战术创新,鲜有军事专家呼吁反思战时战略或作战理念。
俄精英层对诸兵种合成作战的思考凸显此路径。军事思想家坦承俄地面部队未能在战争中实现由坦克与摩托化步兵主导的快速突破纵深作战。但将此结果归咎于无处不在的情报监视侦察(ISR)能力与大规模精确火力的扩散。他们认为这些条件催生了“透明战场”,俄军部队一旦集结、机动或实施纵深作战即遭精确火力即时探测打击。然而,俄精英非但未放弃战前条令,反聚焦于通过扩编部队规模、压制对手ISR与打击能力来恢复战场机动能力。
同理,俄海军专家正应对黑海舰队战时挑战及其对未来海战的影响,包括舰队未能维持制海权及多艘战舰损失。尽管乌克兰缺乏传统海军,其武装力量却成功运用无人水面艇与精确导弹反制俄水面舰队。纵然挑战艰巨,俄军精英仍致力于恢复舰队夺取局部制海权与执行关键任务的能力。为此,他们主要倡导通过战术技术措施提升舰艇生存力、压制对手ISR并反制导弹与无人机攻击,而非对作战艺术进行重大修订。
俄空天军在战场的成败同样引发空权理论家的深刻反思。但其空权控制作战理念仍未根本性偏离2022年前的主题。虽然俄作者剖析了空天军优劣势并提出多重应对方案,但对空战本质的总体评估未变,亦未主张空战战略、条令或理念的根本变革。俄空权理论家着眼于通过扩编规模与依赖先进技术(包括强化地面防空与远程打击能力)来解决乌克兰战场暴露的问题。然而,对于压制摧毁敌防空系统的作战思考依然停滞,尽管空天军未能夺取乌克兰制空权并引发系列连锁反应。
鉴于俄方在战略与战役层面均缺乏重大条令修订,俄罗斯仍延续2022年前的框架定义与西方的战略竞争。其仍以相似假设与理念筹备与北约的战争。俄方胜利理论依然基于:在威胁期创造制胜条件、在战争初期实施快速压倒性打击、通过战略防御与远程打击施加代价、维持升级主导权、瓦解敌方作战意志。
乌克兰战争持久化、俄军打击行动未能瓦解乌方意志、俄方升级威慑可信度丧失——这些因素对俄军思想构建影响甚微。诸兵种合成作战、海面作战价值、制空权核心地位及远程精确打击的根本制胜意义,在俄军战场失利背景下仍展现出惊人韧性。未来十年俄军重建过程中,这些理念很可能继续主导。
因此,俄军精英既未接受消耗战理念,亦未放弃或根本性改变海面作战概念。其继续将远程精确打击视为潜在制胜能力,视地面防空为非对称优势,并构想诸兵种合成机动部队在破碎战场作战的图景。纵有战场失利记录,俄军仍是极具实力且危险的对手。
相关理念对任何潜在对手均有重大影响。俄方倚重"战争初期阶段"作为战略支点,意味着各国须持续发展能提供战略战术预警的先进系统。从战役层面看,关键军事、经济与民用目标遭远程精确打击的高风险,要求各国采取措施增强战争初期及后续阶段的抗毁能力。此外,俄理论家力推快速动态地面作战,西方军事规划者应预判对手在未来冲突中竭力避免消耗战。在海域方向,俄理论家主张结合高强度前沿近海防御与远洋长航时隐身平台,这些平台将配备兼具攻防效能的远程精确打击武器。
综上,基于上述预判并假设在波罗的海等区域追求更有限目标,一支作战模式与2025年相似的俄军,五年后很可能在未来冲突中实现其战略军事目标。
与人工智能催生冲突混乱新时代的反乌托邦设想不同,人工智能工具直接引发大规模战争的可能性似乎有限。但若政府管控不力,仍存在特定路径可能加剧冲突风险。最值得关注的两类路径是:技术突破导致力量平衡破坏性转变的传统挑战,以及人工智能扭曲人类战略判断、助长误判失算的新型问题。
历史表明,多数技术突破并未根本性改变冲突风险,但仍存在显著例外。印刷术发明助推了欧洲社会与宗教动荡,最终促成1618年“三十年战争”爆发;而核武器则显著抑制了二战后大国战争风险。鉴于先进人工智能(AI)可能引发深远的社会、经济与军事变革,其或将成为影响国际安全的另一项突破性技术(Kissinger, Schmidt, and Mundie 2024)。分析人员需严肃考量人工智能改变国际安全格局、诱发非常规战争的可能性(Mitre and Predd 2025)。
基于数十年关于战争诱因的研究成果(Van Evera 1994),本文审视人工智能加剧大国间战争风险的六种假说。这些假说反映了人工智能对军事、经济和社会的影响破坏国际稳定的不同路径,聚焦于最可信且令人忧虑的机制。我们通过识别各假说成立的关键条件,并评估这些条件协同增加冲突可能性的概率来验证假说。
本研究探讨比现有技术更先进的智能系统后果,假设人工智能最终能在广泛认知任务中可靠匹配人类表现——即技术专家所称的“人工通用智能”(Kahl 2025)。分析显示,人工智能直接引发大规模战争的总体风险较低,尤其当政府采取技术管控措施时。但人工智能仍可能通过破坏力量平衡或扭曲战略判断导致误判升级。值得庆幸的是,审慎的政策干预可有效控制此类风险。
若人工智能赋能的军事能力改变力量平衡,使决策者认为此前无法达成的目标现可企及,则人工智能的进步可能导致战争(Cronin and Kurth Cronin 2024)。影响该情景发生概率的关键条件包括:各国是否认为军事优势足以改变其动武的政治考量、领导人是否认为存在短暂的军事行动“时机窗口”、力量平衡中的新优势能否使其通过非战争的胁迫外交达成目标,以及是否存在必须使用武力的战略目标。然而近期内这些条件同时满足的概率相对较低。
第一,人工智能需为潜在侵略方提供显著军事优势,改变其领导人关于胜算的决策逻辑。这包括考虑攻击拥核大国时不遭受灾难性报复打击的可能性。优势来源可能是催生“超级武器”的技术突破(如瘫痪性首轮网络攻击能力或高智能无人机集群),或更可能是多领域军事任务系统性应用人工智能产生的转型优势。要使人工智能在力量平衡中单方面惠及某国,该国需在技术创新与应用上具备先发优势,否则对手可通过人工智能增强防御抵消其新能力(Plumb and Horowitz 2025)。此外,人工智能亦可通过提升国家经济生产力改变力量平衡——若某国因人工智能驱动的经济繁荣大幅增加国防开支,或凭规模而非技术优势获得决定性军事优势(Aschenbrenner 2024)。
人工智能可能带来的经济军事优势规模仍存争议。重大先发优势风险在以下情景最为突出:人工智能创新速度较快而非较慢、性能提升属能力跃迁而非渐进改良、技术复杂度或成本导致他国自主研发滞后(或至少需较长时间完成军事整合)。
第二,除优势规模外,若优势呈现暂时性则冲突风险最高。这可能迫使领导人相信存在逐渐关闭的“时机窗口”,需在优势消退前发动打击(Van Evera 2001)。领导人最可能在预期人工智能技术快速扩散时感知短暂行动窗口。但极速扩散或使领先国家难有足够时间建立重大先发优势。
第三,要引发战争,该优势不能过大以致弱势方寻求政治解决并做出让步,避免遭强敌军事打击(Fearon 1995)。增强的军事实力可提供胁迫筹码,使国家通过明示或默示威胁达成目标而无需动武。若双方均认同人工智能已决定性改变力量平衡,这种清晰认知反会降低战争概率,尽管军事优势本身并未削弱。
最后,优势国需存在值得发动战争的目标——国家不会仅因预期获胜而攻击他国(Blainey 1988)。
首项假说的必然推论——人工智能将赋予国家新军事优势以助长侵略——可能导致各国诉诸战争以阻止对手获取先进人工智能能力(Hendrycks, Schmidt, and Wang 2025)。若领导人认为人工智能将引发爆发性经济增长与决定性军事优势,则可能担忧对手率先掌握先进人工智能将使其未来具备胁迫或攻击能力。面对“先发制人或坐以待毙”的两难困境,相较于未来抵御对手人工智能赋能的攻击,通过预防性打击延缓对手人工智能发展似乎成为两害相权之轻(Edelstein 2017)。
多重条件可能加剧此类风险,但其协同出现的可能性较低(Burdette and Demelash 2025)。
第一,领导人需预期先进人工智能将引发力量平衡的重大转变。该条件可能成立,因领导人或采信人工智能变革性潜力的设想。但领导人仍面临重大不确定性:人工智能未来具体形态为何?何种水平的先进人工智能会触发重大危机?
第二,领导人需预期人工智能赋予重大先发优势,致使其难以追赶。然历史表明,成为高效的技术跟进者往往比首创者更具战略价值(Ding 2024)。例如,英国虽率先研发坦克,但德国在机械化部队战术运用上取得关键突破。
第三,领导人需预期预防性军事打击能实质性延缓对手人工智能发展(Mueller et al. 2006)。在大国博弈背景下,这意味着需对拥核大国本土的大量敏感民用与科研目标(如人工智能实验室与数据中心)实施打击。此举军事难度极高,且领导人对其延缓对手技术发展的时效存在巨大不确定性(Rehman, Mueller, and Mazarr 2025)。
最后,领导人需确信攻击收益大于成本与风险。如首项假说所述,核威慑、常规武力及网络反制能力或将遏止打击行动——尤其当攻击实际效果存在不确定性时。
该假说存在变体:某国或实现先进人工智能突破,继而动用武力维持技术垄断。若早期迹象表明该技术正兑现其革命性潜力,领导人可能试图独占技术红利并阻挠对手获益。此种更强烈且自信的动机,叠加人工智能赋能的军事优势,或使领导人更倾向采取预防性攻击以维持垄断,而非在技术竞赛初期破坏对手进展。然则,为保持先进人工智能垄断权而对强大对手实施有限预防性打击,仍将引发严重升级风险及其他政治代价。若人工智能确被视作关乎未来经济繁荣与国家安全的变革性技术,受打击国领导人或将被剥夺技术获取渠道视为严峻乃至关乎存亡的威胁。
该假说基于一种观点:人工智能能显著缓解或消除使战争成为高代价、高难度行动的传统因素,包括人员伤亡、经济成本及政治阻力。若这些障碍被消除,拥有先进人工智能赋能军队的国家可能更倾向动用武力实现政治目标。
此论断成立需满足若干条件:
第一,人工智能赋能的无人机与机器人需在危险作战岗位大规模替代人类士兵,使战争预期伤亡率急剧下降。如乌克兰战例所示,在可预见的未来,无人机与机器人更可能作为人类战斗角色的补充而非替代(Watling and Reynolds 2025)。即使无人机在军队结构中核心地位提升可降低伤亡,但这不意味着人员被淘汰或伤亡降至可让领导人轻启战端的水平。
第二,人工智能系统需在本质上比依赖人力更廉价。要使人工智能具备物理行动能力,必须与机器人技术结合。无人机和机器人在特定情境下比有人系统更具成本优势,但其绝对成本并不低廉——尤其按国防规划者设想的大规模部署时。若人工智能赋能的军事能力能缩短战争时长,替代昂贵持久战,或可降低军事行动的人力与物资成本。然而,人工智能增强的自动化生产或提升国家持续部署机器人系统维持长期战争的能力,而累积的人力与经济成本可能随战争延长而攀升。
该假说存在一个特殊但关键的变体:先进人工智能可能削弱核威慑(Aschenbrenner 2024)。尽管核威慑并非万能且无法遏止所有有限侵略,其对国际体系的稳定作用难以被人工智能消除。人工智能或可增强攻击敌方核武库的能力,但同样有助于防御方提升核武生存能力(Geist 2023)。同样,人工智能虽可提升未来防空反导系统效能,但无法使大国免遭核报复——这需要拦截全部来袭核弹头(包括专门为穿透人工智能强化防御而研发的新型载具),而非仅仅多数。最后,尽管存在人工智能网络攻击瘫痪敌方核指控系统的担忧,但鉴于核大国对此类系统安全的高度重视,该情形极难发生。
另一潜在的冲突路径可能源于国内动荡。有观点认为,先进人工智能融入国家经济可能引发大规模失业,进而导致社会失序。理论上,领导人或通过攻击外敌转移民众视线,煽动“旗帜效应”以支持政府。尽管人工智能引发重大经济混乱的可能性较高(Hunter et al. 2023),但此类转移矛盾型战争路径尤其难以成立。虽然领导人可能试图将公众愤怒导向内外敌人而非政府自身,但历史鲜见证据表明其倾向于通过挑起对外战争应对国内动荡(Fravel 2010)。
发动全面战争非但不能缓解领导人的国内政治困境,反可能加剧危机——尤其当危机系人为制造而非真实威胁时。事实上,国内动荡往往促使领导人转向内部,采取激进改革或政治压制。例如大萧条时期,罗斯福总统专注于深远的经济社会政策;即使面临二战级别的重大危机,美国国内仍强烈反对卷入冲突。
该假说存在变体:人工智能或使社会更具侵略性与扩张性。公众可能主动要求政府采取更强硬立场,而非政府转移民众注意力。如一战前德国实力增强时,社会出现要求争取“阳光下的地盘”实施扩张的呼声(Renshon 2017)。若人工智能引发爆发性经济增长,公众或要求将这些红利用于地缘政治优势或领土扩张。然则军事侵略并非彰显地位的唯一途径,且这些经济优势能否创造侵略新机遇,取决于首项假说所述条件——即人工智能颠覆力量平衡创造侵略机遇。此外,人工智能驱动的经济增长或更具稳定性:若社会减少对资源稀缺的忧虑并提升经济自足性,其对国际竞争与冲突的兴趣可能减弱。
另一种可能是,人工智能通过强化公共话语病理(而非经济影响)使社会更具侵略性。包括激化网络回音室效应、煽动对未来的恐惧焦虑、传播虚假信息及鼓励寻找替罪羊。这些皆为现实关切,但尚不清楚先进人工智能会较人类领导人自主行为在何种程度上加剧这些问题(Narayanan and Kapoor 2025)。人工智能对社会影响的最终效果,取决于对技术本身、应用方式及政府转型管理的多重假设。人工智能如何重塑社会偏好仍存在高度不确定性,故该假说变体成立性存疑。
当人工智能在《终结者》等电影中引发战争时,常因领导人将军事控制权委托给蓄意采取恶性行动的机器。一个反乌托邦色彩较弱但更可信的假说认为,人工智能可能通过意外或未授权行动触发战争。若人工智能代理对自主军事系统等能力拥有足够控制权,危机期间的失控事件可能导致局势升级(Danzig 2018)。例如自主无人机可能侵入对手领空,或自主水下航行器攻击敌方潜艇。此类失控事件既可能因对手操纵人工智能系统引发,也可能源于技术固有复杂性导致难以预测其在动态环境中的行为。
但支撑该假说的条件难以成立。首先,人工智能需较传统技术增加事故发生率。这可能成立,因人工智能增加系统复杂性进而提升事故风险;但足够先进的人工智能或比人类操作及当前自动化水平更具可靠性与安全性(Sagan 1993)。
其次,所导致的事故需达到足以触发战争的程度。历史上多数军事事故代价由己方承担(Herdman 1993),针对对手的意外攻击多为局部事件,升级潜力有限。
最后,领导人需在严重损害他国的事故后未能找到缓解紧张的方法。鲜有历史证据表明领导人会意外卷入战争,部分因其通常在战争不符合利益时有效降级危机(Lin-Greenberg 2024)。例如两伊战争期间,伊拉克战机误将美国“斯塔克”号护卫舰识别为伊朗油轮实施攻击,致37名水兵丧生(Crist 2012)。尽管造成重大伤亡,双方仍成功控制事态升级。
令人鼓舞的是,各国正通过正式与非正式保障措施管理高风险领域的人工智能事故。例如2024年中美尽管存在分歧,仍同意保持人类对核武器使用决策的控制以降低事故风险(Renshaw and Hunnicutt 2024)。
最终,人工智能或通过间接方式影响人类战略决策导致冲突。过度依赖人工智能获取情报与决策支持的领导人,可能加剧误解并助长不稳定性。
该路径导致战争的核心条件是:人工智能提供的战略评估或建议增加了侵略或误判概率。无证据表明先进人工智能本身比人类更倾向冲突,但这些支持工具仍可能因“幻觉”——即大型语言模型感知不存在模式生成荒谬或虚构输出——无意间导致误解。
或因其对局势及对手行为的错误推断造成认知偏差。领导人可能显现“自动化偏见”,过度信任人工智能输出,假设其具有人类顾问所不具备的客观性与准确性(O’Hanlon 2025)。这可能使领导人对威慑核心要素(如对手意图、报复概率、战争胜算)产生无根据的盲目自信。
此外,人工智能系统可能有意或无意地强化领导人既有偏见。不难设想人工智能将构建类似俄罗斯2022年侵乌前或美国2003年侵伊前的决策回音室(Sonne et al. 2022; Mazarr 2019),即使评估缺乏现实依据仍强化领导人关于存在可操作“时机窗口”的信念。
若领导人担忧对手利用人工智能加速决策,其决策时间压力将加剧。决策内容与时间线相互关联:时间压力越大,领导人批判性审视人工智能信息的可能性越低(Husain 2021)。然而人类自身存在加剧冲突的心理偏见(Kahneman and Renshon 2009)。若设计与训练数据得当,人工智能或可缓解而非加剧偏见。先进人工智能可通过三大优势提供优于人类顾问的洞见:更精准快速整合信息助益理解快速演变的危机(Paterson 2008);在信息模糊时清晰传达关键不确定性与竞争性解读(Jervis 2006);识别非武力达成目标的途径(Plokhy 2021)。人工智能还可传递人类顾问不愿提及的负面信息——尽管最需此种坦诚的领导人最不可能获得直言进谏的智能顾问。
人工智能决策支持工具的总体效果取决于技术成熟度、政府保障机制及领导人信任度等变量。但该假说揭示了人工智能增加战争风险的可信路径——尤其当政府实施不当技术方案时。若以正确思维模式使用人工智能工具,人类可做出更优决策;但若系统设计使用存在疏漏,决策质量或将显著恶化。
综合评估六项假说表明,反乌托邦设想夸大了人工智能点燃国际冲突新浪潮的风险。发动战争的根本动因在于政治而非技术(Lieber 2005)。先进人工智能等新技术可通过军事、经济和社会路径产生政治效应;但其影响力受制于诸多其他因素——在人工智能缺位时,这些因素多倾向于克制,偶尔将国家推向战争。人工智能固然可能在"战争导火索"中发挥作用,但其本身不太可能成为决定性诱因。尽管如此,人工智能潜在的"火上浇油"效应仍要求各国政府采取预防性政策以管控其使用时机与方式。
鉴于人工智能仍属新兴技术,相关结论需注意三点局限:首先,远期预测本就困难重重,人工智能的发展轨迹及其对全球军事、经济和社会的潜在影响存在不确定性,更增预测难度;其次,不同风险路径可能以动态且不可预见的方式相互交织,即使单一路径风险较低,其叠加效应仍可能助长不稳定。
本分析聚焦国家间重大冲突诱因,但人工智能对国家能力薄弱国家的社会与经济冲击,或对内战构成更显著风险(Rustad 2024)。此类内部冲突致死率可能超过国家间战争,且存在跨境升级隐患。
在探讨人工智能削弱稳定性的同时,需关注其净效应或趋向增强而非侵蚀国际稳定。研究者可运用相同框架分析积极面:人工智能促进稳定与和平的假说有哪些?实现积极愿景需满足哪些条件?
政府可通过审慎政策管理多数人工智能风险。具体而言,研究者与决策者应特别关注最具挑战的两类假说:人工智能导致力量平衡破坏性转变的传统风险,以及扭曲人类战略判断的新型风险。
为防范军事平衡变化诱发决策者产生过度自信,政府首需避免技术突袭。这不仅要求将人工智能专业能力纳入情报机构并监测对手技术进展,更需追踪预判人工智能对对手认知的广泛影响及其可能解锁的军事能力。政府还应考量抵消对手人工智能优势的反制措施,例如研发制造"战争迷雾机器"——通过规划欺骗战术与协调机器人诱饵,抵消竞争者在人工智能传感器融合领域的进步(Geist 2023)。军队需确保成为人工智能应用的快速跟进者(若非领导者),但若管理失当,追求速度或牺牲安全性与战备状态。
决策者还需制定政策,防范人工智能加剧误判与升级的风险。个体层面,领导人须以对待人类顾问的审慎态度看待人工智能生成信息;制度层面,政府可设计风险管控系统:要求人工智能决策支持工具的战略输出必须包含事实依据及不确定性评估;设立"红队"批判性审查人工智能结论;赋予人工智能设计弹性方案争取决策时间的任务。
加强危机沟通机制(如在利益可能冲突的国家间建立热线)亦具价值,尤其在21世纪信息源可靠性存疑时。此类措施或需牺牲决策速度与简洁性——当代领导人期望未来人工智能提供的优势——但为管控人工智能诱发不稳定的风险,此种权衡实属必要。
全球AI治理进入体系化与安全驱动阶段 全球人工智能监管由倡议导向逐步转向体系化落地,风险分级管理成为核心制度基石。各主要经济体分化明显:欧盟趋严,美国与英国侧重灵活监管,中国聚焦生成式AI的安全评估与备案,显示安全能力与合规体系正成为核心战略资产。 全球AI市场规模加速扩张,中美形成双极主导 2024年全球AI市场规模约6,157亿美元,预计2030年将突破2.6万亿美元。中美新增大模型数量占比从2022年的72%提升至2024年的86%,中国以1,509个大模型位居全球首位,美国则凭借技术深度与应用多样性保持领先。 投融资热度高企,资本集中效应显著 2024年全球人工智能融资总额超5,900亿元,中美占比高达92%。美国以资本集约化运作推动底层技术突破,中国依托场景驱动形成差异化路径;AIGC领域融资占比达56%,成为最受关注的赛道,显示行业资本正从“技术验证”转向“商业闭环”。 中国AI政策从探索走向系统性赋能 国家层面将“人工智能+”行动列为战略核心,强调技术安全、应用场景和产业链协同。地方层面则聚焦教育、医疗、具身智能与算力建设。整体上,中国人工智能核心产业规模2024年突破7,000亿元,政策、技术与应用三轮驱动下进入高速发展阶段
基于 Transformer 的模型的快速发展,正在重塑无人机(UAV)系统的格局,大幅提升其感知、决策与自主性。本文综述系统地梳理并评估了 Transformer 架构在无人机中的最新进展,包括注意力机制、CNN-Transformer 混合结构、基于强化学习的 Transformer,以及大语言模型(LLMs)。与以往的综述不同,本研究提出了一个统一的无人机 Transformer 模型分类法,重点介绍了精细农业、自主导航等新兴应用,并通过结构化表格与性能基准提供对比分析。本文还回顾了该领域的关键数据集、仿真器和评估指标。进一步地,我们识别了现有文献中的空白,总结了计算效率与实时部署方面的关键挑战,并提出了未来的研究方向。本综述旨在为研究人员和实践者提供系统性参考,帮助他们理解并推动基于 Transformer 的无人机技术的发展。
自动化与传感技术的快速发展正在推动多个领域(包括国防、交通与工业)从载人(crewed/manned)系统向无人(uncrewed/unmanned)系统转变。无论是空中、地面还是海上的无人载具,相较于传统载人系统,都展现出显著优势,使其应用已成为必然趋势,而不仅仅是技术潮流。 推动这一转变的首要因素是安全性。在战区、灾害救援区域或深海探测等高危环境中,无人载具能够有效避免对人类操作者的风险。这些系统通过消除直接的人类参与,可以更高效地执行危险任务,同时降低伤亡和作业风险。在采矿、物流等行业中,无人自主车辆通过精确地执行高风险作业,提升了作业安全性。 效率与成本效益进一步支撑了向无人系统的转变。自主车辆能够优化燃料消耗、减少人为错误、降低停机时间,从而提高生产力。例如,无人地面车辆(UGVs)如自动驾驶卡车,可持续运行而不受人类疲劳的限制,大幅提升物流效率。无人水面艇(USVs)如“海上猎人”自主舰艇,可提升海上监视与侦察能力 [1];无人水下潜航器(UUVs)则用于水下勘探与水雷探测 [2]。类似地,无人机(UAVs)在农业中可提升作物监测与精准农业水平,减少资源浪费 [3]。随着技术的不断进步,无人载具的可靠性和适应性大幅提升。图1展示了 UAV 及自主车辆在多个领域的关键应用,包括精准农业、军事行动、物流、应急响应、监控、障碍物检测和交通控制。图中还强调了轨迹控制器、GPS 与控制中心在系统管理中的重要作用。 然而,UAV 在非均质环境中面临显著挑战,例如与载人车辆(CVs)共享道路。此类挑战包括保持 UAV 与地面或空中 CVs 的安全间距以避免碰撞、检测与规避障碍物、应对潜在威胁以保护动物和行人,以及遵守交通信号。深度学习(DL)的最新进展极大提升了这些能力,强化了目标检测、监控、定位与整体系统协同。 人工智能(AI)驱动的导航、机器学习(ML)算法与实时数据处理,使这些系统能够在最小化人为干预的情况下自主运行。这推动了军事对无人作战系统的依赖,减少人员暴露于敌对环境的风险,同时增强战略能力。随着产业与政府日益认识到这些优势,从 CV 向无人载具(UCVs)的转变已不再是选择,而是必然。随着持续创新,无人系统将在移动性、安全性与效率方面带来革命性变化,塑造未来交通与作业物流。 在 AI 提供的广泛自主框架下,ML 与 DL 在提升 UAV 能力方面更为有效。ML 使 UAV 能够从大规模数据中学习,无需依赖预设规则即可改进导航、避障与目标识别。DL 尤其是卷积神经网络(CNNs)及其相关的预训练模型 [4],通过支持实时目标检测,增强了 UAV 的实时决策能力;循环神经网络(RNNs)能够预测能耗 [5];其他 DL 技术则支持自主飞行路径规划、优化与避障 [6]。与追求人类推理能力的通用 AI 不同,DL 擅长模式识别,能够在提升精度的同时降低计算开销。此外,ML 与 DL 算法使 UAV 能够动态适应环境变化,提高飞行效率与任务成功率 [7]。它们能够实时处理复杂传感器数据,使其在监视、灾害响应与物流中不可或缺,超越了传统 AI 方法的可靠性与性能。 近期,高级 DL 技术如深度强化学习(DRL)[8]、深度迁移学习(DTL)[9,10] 与联邦学习(FL)展现出更强的适应性、效率与自主性 [11]。DRL 使 UAV 能够通过试错在动态环境中实现实时决策,这对自主飞行控制与多智能体协作至关重要,同时也增强了 UAV 在抗攻击与入侵方面的安全性 [12]。DTL 则使 UAV 能够利用预训练模型,显著降低计算成本,加速对新任务的适应 [13],如识别新地形或新目标,同时缓解 DL 攻击带来的安全漏洞 [14]。FL 则允许 UAV 从分布式数据源中学习,同时降低通信开销与计算成本 [15]。这种方法尤其适用于灾害响应、监视与军事行动等动态且资源受限的环境。FL 通过在本地更新模型并将结果聚合到中央服务器,实现了对抗攻击与数据泄露的鲁棒性,同时缓解了延迟问题,提升了实时决策效率。 尽管传统 DL 与先进 DL 技术具备诸多优势,但其在长程依赖建模、序列数据处理效率与计算开销等方面的局限性,迫使我们引入基于 Transformer 的架构 [16] 来增强 UAV 在真实场景中的表现。例如,CNN-Transformer 融合了 CNN 的空间特征提取能力与 Transformer 的全局上下文感知能力,提升了 UAV 在目标检测、地形建模与低光成像中的性能;DRL-Transformer 则通过引入注意力机制优化了序列决策建模,增强了复杂环境下的自主飞行策略;视觉 Transformer(ViT)提升了 UAV 的再识别与跟踪能力,对安防监控与灾害管理至关重要;时空 Transformer(STT)能够同时捕捉空间与时间依赖性,从而优化 UAV 的轨迹预测,对于运动规划与集群协作尤为关键。此外,大语言模型(LLMs)可以与 UAV 融合,用于智能任务规划、基于自然语言的无人机控制,以及通过多模态数据融合提升态势感知能力。通过联合处理文本、图像与传感器数据,融合 LLM 的 UAV 能够实现更自主、更具上下文感知的操作。Transformer 与现有 DL 技术的结合,为 UAV 带来更强的适应性、更高的计算效率与更优的感知能力,为实现更自主、更具韧性与智能化的 UAV 系统铺平了道路,这些系统将在监视、物流与灾害响应等多个领域得到广泛应用。
随着 UAV 在监视、农业、物流与安防等领域的应用日益广泛,对其更智能、更自主的决策能力需求不断增长。这推动了研究者们对先进 AI 技术,尤其是基于 Transformer 的架构的浓厚兴趣。越来越多的研究探索如何利用 Transformer 模型提升 UAV 的感知能力、适应性与运行效率,相关论文与应用案例数量激增。 Transformer 模型已在自然语言处理与计算机视觉领域取得突破性进展,为 UAV 感知与自主性提供了有力支持。近期的发展,如 ViT、Swin Transformer 与 LLMs,已在 UAV 的目标跟踪、异常检测与自主导航中展现出潜力。然而,尽管应用不断增加,系统性分类与分析 Transformer 在 UAV 应用中的综述仍然缺失。 一方面,已有研究虽然涉及 Transformer 在 UAV 的应用,但多数忽略了专用变体的进展,如 ViTs、STTs 及与 DL 技术融合的混合方法(如 CNN-Transformer、DRL-Transformer、YOLO-Transformer)。这些方法在 UAV 应用中的作用仍未得到充分探讨。表1给出了现有综述的对比总结,突出了当前 UAV 综述在多个核心领域的空白。例如,注意力机制、基于 DRL 的 Transformers、孪生网络架构与 STTs 尚未在现有文献中系统讨论;YOLO-Transformer、ViT、Swin 与 LLMs 等模型也常被忽略。已有综述 [17–19] 往往仅覆盖有限子集或缺乏技术深度;应用导向的讨论在 [17,18,20] 中较少,在 [19,21,22] 中则流于表面;挑战与未来方向在 [17–19,22] 中缺失,在 [21] 中也仅作浅层次处理。因此,这些综述难以有效指导未来研究优先级,或解决 UAV 领域的关键技术与实践问题。 另一方面,[21] 虽对 CNN-Transformer 模型提供了较全面的综述,但 [20] 仅讨论挑战与未来方向而缺乏技术深度,[23] 则仅关注 LLMs 与应用,忽视了关键模型架构。 与此不同,本文通过全面覆盖 Transformer 与混合 Transformer-DL UAV 模型,提供了更整体、更前沿的综述。我们系统性地讨论了 Transformer 模型、LLMs、应用领域与开放挑战,弥合了现有文献碎片化的局限。
本文通过对基于 Transformer 的 UAV 方法进行全面、系统的评估,填补了现有综述的空白。与已有研究不同,本综述提供了整体性、前沿性的综合视角,紧跟 UAV 自主性快速发展的最新格局。本文的主要贡献如下: * 提出全面的分类体系:涵盖注意力机制、CNN、DRL、STTs、Swin、ViT、YOLO、孪生网络与基于 LLM 的方法,系统梳理 UAV Transformer 模型的最新进展。 * 分析多样化应用场景:探讨 Transformer 在 UAV 实时跟踪、目标检测、异常检测、定位、自主导航、精准农业、安全与多模态传感器融合中的作用。 * 综述关键支撑工具:回顾 UAV 模拟器、用于数据集生成与场景仿真的工具,总结跨应用的核心评估指标,并梳理覆盖多模态、多任务的主要 UAV 数据集。 * 提供系统比较与基准:表2、3、5 对不同 Transformer 架构、注意力机制与 DRL 技术进行比较,辅助模型选择;表4、6、9 提供基于 Transformer 的 UAV 应用性能对比,便于快速评估准确性、效率与局限性。 * 案例研究:呈现两个案例——基于 Transformer 的 UAV 实现,以及基于 LLM 的 UAV 智能控制与任务规划,提供设计与部署的实践启示。 * 讨论挑战与未来方向:超越技术分析,深入探讨 Transformer 融合到 UAV 系统的关键挑战,如可扩展性、实时性与数据限制,并提出未来研究方向以推动该领域发展。
本文余下结构如下:第二节深入分析基于 Transformer 的 UAV 模型,按其与 DL 结合的架构分类;第三节回顾 UAV 模拟器、评估指标与基准数据集;第四节综述并展示 UAV 应用中的最新进展;第五节给出两个案例研究;第六节讨论研究挑战、开放问题与未来方向;第七节总结全文并展望未来研究。
2025年的IJCAI(International Joint Conference on Artificial Intelligence) 于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。
来自清华大学研究人员给出《动态开放环境下的多模态生成式人工智能》教程,值得关注!
https://mn.cs.tsinghua.edu.cn/ijcai25-aigc/
概述 本教程旨在传播和推广多模态生成式人工智能的最新研究进展,重点聚焦于两大类主流技术:用于理解的多模态大语言模型(Multimodal Large Language Models)以及用于视觉生成的扩散模型(Diffusion Models)。本教程系统性地讨论多模态大语言模型与多模态扩散模型,涵盖其概率建模方法、模型架构以及多模态交互机制等内容。 在动态与开放的环境中,不断变化的数据分布、新兴概念的出现以及日益复杂的应用场景,为多模态生成模型带来了巨大挑战。本教程将从两个方面探讨应对这些挑战的解决方案及未来方向:其一是能够实现泛化的后训练技术,以帮助多模态生成模型适应新概念;其二是发展统一的多模态生成与理解框架,以支持复杂的多模态任务。 教程大纲 本教程的时长为1.5小时。 第一部分:生成式模型介绍(5分钟) 前置知识:大语言模型、多模态生成式人工智能 l大模型新范式 l多模态生成式人工智能的应用领域 l多模态生成式人工智能的两类模型:多模态大语言模型与扩散模型 第二部分:多模态大语言模型(10分钟) 多模态大型语言模型 (MLLM) 近年来已成为多模态理解领域的主流。本节对多模态大型语言模型进行回顾和总结。 l自回归建模 l视觉语言预训练 l视觉分词器 第三部分:扩散模型(10分钟) 扩散模型(Diffusion Model)已成为视觉生成领域的主流模型。本节对扩散模型进行回顾和总结。 l去噪扩散概率模型 l潜空间扩散模型 l流匹配 l文生图、文生视频等应用 l第四部分:新概念泛化的后训练(35分钟) 介绍动态开放环境的主要挑战,并提出应对这一挑战的方式之一:新概念泛化的后训练技术。 l空间解耦后训练 l时空解耦后训练 第五部分:统一理解生成模型(15分钟) 本节主要关注统一的多模态理解和生成模型。 l概率建模过程 l模型架构 第六部分:未来方向(10分钟) l具有物理规律的生成式人工智能 l理解生成一体化基准测试 l多模态图生成人工智能 l具身生成人工智能 第七部分:开放讨论(5分钟) 目标受众 本教程的目标受众是人工智能领域的研究群体,尤其是对生成式人工智能、多模态、多模态大语言模型以及扩散模型感兴趣的研究人员。 教程目标:本教程聚焦于多模态生成式人工智能的最新进展,以及当前的热点方向——统一的多模态生成与理解框架。听众将能够了解多模态生成式人工智能的概率建模方法、模型架构,以及一些前沿应用。