AI智能体式编程是一种新兴范式,其中大型语言模型(LLMs)能够自主规划、执行,并与编译器、调试器和版本控制系统等外部工具交互,以迭代完成复杂的软件开发任务。 与传统的代码生成工具不同,智能体系统能够分解高层目标、协调多步流程,并基于中间反馈自适应地调整其行为。这些能力正在改变软件开发的实践。随着这一新兴领域的快速发展,有必要明确其研究范围,夯实其技术基础,并识别尚待解决的研究挑战。

本综述对 AI智能体式编程** 进行了全面而及时的回顾。我们提出了一个关于智能体行为和系统架构的分类法,并探讨了包括规划、记忆与上下文管理、工具集成以及执行监控在内的核心技术。我们还分析了现有用于评估代码智能体性能的基准和评价方法。**

我们的研究揭示了若干关键挑战,包括:在处理长上下文方面的局限性、任务间缺乏持久性记忆,以及与安全性、用户意图对齐和与人类开发者协作相关的担忧。同时,我们讨论了在提高智能体系统的可靠性、适应性和透明性方面的前沿机遇。通过综合近期进展并勾勒未来方向,本综述旨在为构建下一代智能、可信赖的 AI编程智能体 提供研究与开发的基础。

1 引言

随着大型语言模型(LLMs)的兴起,软件开发范式正在发生迅速变化 [73]。这些模型使人工智能(AI)系统不仅能够生成代码 [44],还能够理解任务需求、与开发工具交互,并迭代地优化其输出 [29, 43]。近期研究表明,软件开发者如今已常规性地使用LLMs来辅助日常编码任务 [30, 72, 73]。与传统的代码生成工具 [31] ——它们往往只针对单一提示返回静态代码片段——不同,新兴的AI编程智能体被设计为能够在动态的软件环境中运行,通过执行迭代的、工具增强的任务来实现复杂目标。 这一转变催生了一种新的编程范式,即 AI智能体式编程。在该范式中,基于LLM的编程智能体可以自主地规划、执行并优化软件开发任务 [36, 42]。这些智能体不仅仅是代码补全:它们可以根据自然语言规范生成完整的程序或模块,利用编译器或测试反馈诊断并修复错误,编写并执行测试用例,并对代码进行重构以提升可读性或性能。它们还能够调用并交互外部工具,如编译器、调试器、性能分析器或版本控制系统,从而支持端到端的软件开发工作流。 这种新兴的编程范式有潜力从根本上改变软件的构建与维护方式。例如,一个AI智能体可以从功能的自然语言描述出发,逐步完成代码编写、测试生成与运行、问题分析与修复,直至准备好一个pull request。一些最先进的编程智能体已展示出在保持任务一致性、避免死锁以及从失败操作中恢复的前提下,连续工作数小时的能力 [29, 42]。这些系统能够生成和测试代码,在不同框架之间迁移软件,调试运行时错误,并通过将复杂目标分解为可管理的子任务来集成新特性 [34, 35]。这标志着从静态的一次性AI代码生成向交互式、迭代式、工具增强型工作流的显著转变。 尽管进展迅速,AI智能体式编程仍处于早期阶段。现有系统在架构、自主性、工具集成以及推理能力方面存在差异。目前尚无统一的分类体系、基准测试套件或评估方法。此外,仍有多项关键挑战亟待解决,包括提升可靠性 [73]、减少错误或幻觉 [30]、处理跨平台与跨语言的任务 [81],以及确保这些系统在实际使用中安全可信 [54]。

AI编程智能体的成功在很大程度上依赖于其与外部工具的高效交互能力。然而,当今的编程语言、编译器与调试器从根本上是面向人类的,它们并非为自动化、自主系统而设计。这些工具通常会抽象掉内部状态与决策过程,以提高可用性、保证可移植性并降低人类用户的认知负担 [129, 130]。虽然这种抽象对人类开发者有益,但可能并不适合AI智能体。后者需要对内部状态、转换序列和验证逻辑进行细粒度、结构化的访问,以便推理其操作效果 [33]。缺乏这种访问能力,AI智能体在诊断失败、理解修改的影响或以合理方式恢复错误时会面临困难。例如,当代码转换导致构建失败时,智能体需要的不仅仅是错误消息——它必须能够追溯失败的具体中间步骤,并理解为何修改会引发该问题。现有开发环境并未提供支持这种迭代式、工具集成推理的接口与反馈机制。

同样地,智能体编程系统极大地受益于支持迭代开发、状态追踪和丰富反馈传播的工具链——而大多数传统工具并未暴露这些能力。为了高效运行,AI智能体可能需要访问编译器的内部表示、转换轨迹、符号信息以及执行元数据。这引出了一个根本性问题:在AI智能体式编程的时代,我们现有的编程语言和软件开发工具是否仍然适用?抑或是时候重新思考编程语言、编译器和调试器的设计,以将AI智能体视为开发过程中的一等参与者?

这些挑战表明,AI智能体式编程并不仅仅是现有工具的一种新用法,而是一种变革,它暴露出当今软件系统设计中的重要缺口。随着该领域的快速发展,亟需澄清其概念图景、识别共性模式与系统架构,并评估当前开发生态的适用性。此时正是回顾最新进展、总结经验并提出研究者与开发者需要解决的关键问题的最佳时机。 因此,本综述旨在对AI智能体式编程这一新兴领域进行全面回顾。具体而言,涵盖以下几个方面: * AI编程智能体的概念基础与分类体系; * 核心系统架构与底层技术的综述; * 当前应用与实际使用案例的总结; * 评估策略与基准测试方法的分析; * 关键挑战与当前局限性的讨论; * 未来研究方向的探索,包括跨编程语言、软件工程、人工智能与人机交互等学科视角的交叉融合。

我们主要聚焦于由LLM驱动的软件开发智能体系统,但其中许多见解同样适用于一般的任务型智能体。我们的目标是描绘当前研究版图,澄清基础概念,并支持设计出稳健、高效且值得信赖的AI编程智能体。

成为VIP会员查看完整内容
35

近十年来,中国人民解放军(PLA)持续追踪美军通过"人机协同作战"(MUM-T)提升战斗效能的演进路径。通过剖析美军MUM-T发展关键节点,PLA旨在识别其军事弱点、优化自身装备采办策略并研发反制措施。随着MUM-T深度融入美空军部(DAF)"协同作战飞机"(CCA)等计划,PLA正开展适配自身作战需求的同类技术试验。截至2025年,PLA判定未来战争的核心特征是将人工智能增强无人系统融入以有人平台为主导的作战网络,以此优化作战效能,同时积极布局未来战场优势地位。

核心议题

当美空军部加速测试MUM-T概念并将CCA计划纳入对抗高端对手的作战体系时,美国防部(DoD)及空军部的规划者、战略家与分析人员正在深入研究中国对空战自主系统的认知路径。掌握外国MUM-T能力可指导美空军部作战规划、增强盟军互操作性并引导关键技术投资。此外,洞悉中国MUM-T发展模式有助于预判与反制战术,确保美军在可预见未来保持战略优势。

研究方法

本研究基于中文开源文献解析中国防务界空战技术观点,据此识别军工复合体内MUM-T核心利益方与倡导者。重点探究:(1)PLA是否计划将MUM-T及反制策略纳入作战概念开发;(2)PLA如何看待空军部将MUM-T作为未来作战能力标志性特征的战略;(3)PLA关于人机关系及自主系统作战角色的认知体系。

核心发现

• PLA判定MUM-T将成为智能系统作战的标志性特征,当前处于将其融入现有条令的作战概念萌芽期
• 自2015年起持续追踪美军MUM-T技术概念发展,旨在识别弱点并研发反制措施
• 截至2025年初,PLA采取区别于美空军的MUM-T路径:聚焦软件算法升级,强化无人系统对有人平台的辅助功能。双方虽均重视CCA型效费比能力,但PLA更强调"单机功能强化"而非需更高自主性的"高级编组协同"
• PLA作战概念开发尚处初始阶段,文献强调需强化人机协同作战条件下"战时党委"职能,近期平衡自主化与政治管控仍是挑战

战略建议

尽管美军MUM-T融入未来作战概念仍处初级阶段,当前正是实施竞争策略确保空军部保持技术概念优势的关键窗口。基于本报告初步结论提出:
• 运用红队分析制定美军MUM-T研发采办的定制化战略传播方案
• 以MUM-T/CCA发展为案例实施"隐真示假"能力建设策略
• 未来十年PLA将加速自主系统军事化集成,情报部门需重点分析其编制体制、作战条令及训练模式
• 针对性强化电磁频谱防护能力,拓展与盟国军工基地的电磁战协作
• 美空军部组建"综合能力司令部"时,旨在确保其情报单元动态监控分析PLA电磁战与信息战能力
• 深入研判PLA在人工智能与无人系统塑造的复杂战场态势,据此开发定制化CCA作战概念

成为VIP会员查看完整内容
37

自文明诞生以来,人类一直在努力理解智能的本质。 随着计算机的出现,人们开始尝试用计算机算法来模拟人类智能——这一领域由计算机科学家约翰·麦卡锡(John McCarthy)在 1956 年命名为“人工智能”(Artificial Intelligence,AI),并在近年来迎来了爆发式的发展。 人工智能研究的许多努力集中在对人类认知标志性能力的研究与复现,例如下智能棋类游戏、语言能力、视觉感知以及创造力。在撰写本文时,我们已经在上述领域取得了多项成功尝试——如今,计算机在国际象棋与围棋上可以击败任何人类棋手,可以在不借助词典的情况下将英语翻译成中文,可以在拥挤城市中实现自动驾驶,还能生成在艺术比赛中获奖的诗歌与绘画作品。

然而,公平地说,我们依然未能完全理解何谓类人智能或“通用”智能,以及如何复现它。 上述大多数人工智能的典型案例,都是由深度学习(Deep Learning)驱动的。 深度学习是一类算法,其历史可追溯到 20 世纪早期——当时人们尝试以一种高度抽象的方式,将生物大脑中神经元的连接与工作机制在计算机中加以复现。这样的系统被称为(人工)神经网络(neural networks),这是类比于生物神经网络的命名。它由称为“神经元”(neurons)的计算单元组成,这些单元通常按层次结构组织成多层(深度学习中的“深”即指拥有许多层的神经网络)。 神经元包含可调节的参数,可以通过一种称为学习(learning)的优化过程来针对特定任务进行调整。人工智能的一个分支领域——机器学习(Machine Learning, ML),则专注于研究用于设计和优化此类系统的数学方法。 深度学习(Deep Learning)是一个总称,指依赖人工神经网络的机器学习算法,而这些神经网络通常由大量层结构组成。 近年来,各类人工神经网络架构迅速涌现,它们分别提出了不同的连接模式以及学习系统所需执行的内部计算方式。 几何深度学习(Geometric Deep Learning)是深度学习的一个分支领域 [5, 6],专注于为具有非欧几里得结构(如图、流形)的数据开发人工神经网络。传统的深度学习模型通常处理类网格(grid-like)结构的数据(如图像、时间序列、文本),但许多现实世界问题涉及更复杂、不规则的几何结构。 该领域尤其关注从几何先验(geometric priors)角度分析神经网络。不同模型通过在具有对称群(symmetry groups)结构的域上对信号建模,引入归纳偏置(inductive bias),以此对抗维度灾难(curse of dimensionality)。几何深度学习为将物理对称性等先验知识融入新型神经网络架构的设计提供了一种结构化方法,同时还能在统一框架下归纳与理解现有的成功模型。

成为VIP会员查看完整内容
33

人工智能(AI)作为成功范式已广泛应用于多领域,但在偏远地区部署或弱连通场景下实施时,常需在数据采集源头就近完成推理计算。本研究致力于探索AI模型优化路径,推动智能算法向边缘端部署。聚焦农业等领域的便携式设备应用场景(如气培容器、无人机、移动机器人),核心目标是通过开发定制化模型并实现"模型尺寸压缩"与"推理时延优化"。为此系统探索了多维度优化方案:包括样本数据"相关特征"提取技术、网络剪枝及量化压缩等方法。本论文提出涵盖开发-实现-优化的全栈式框架,重点解决边缘设备部署所需的轻量化与高效能需求。

研究目标通过三重递进步骤实现:验证至少存在一种AI模型可为目标应用提供有效预测;探索并实施模型优化方法;最终在资源受限硬件平台完成部署。核心创新点在于建立定制模型通用优化流程,并首创基于"模型可解释性"的特征选择框架——该方案在农业科技领域尚属首次系统性实践。优化体系以特征选择为主体,辅以剪枝与量化技术形成完整闭环。通过在准边缘设备部署验证,实证了本方案的工程可行性。

尽管本文构建了从模型设计到边缘部署的完整研究链,仍需指出若干可深化方向:AI领域与边缘计算技术持续迭代,硬件加速架构及软件工具链的革新为后续研究开辟广阔空间。本工作旨在填补现有研究空白并提供方法论参考,寄望所提思想能为未来边缘智能技术发展提供有效范式支撑。

成为VIP会员查看完整内容
32

摘要:

人工智能(AI)正在重塑科学发现,其角色正从专门的计算工具演化为自主的科研伙伴。我们将**智能体科学(Agentic Science)**定位为“AI for Science”范式中的关键阶段,在这一阶段,AI 系统从部分辅助走向全面的科学自主性。借助大语言模型(LLMs)、多模态系统以及一体化研究平台,智能体化 AI 展现出在假设生成、实验设计、执行、分析与迭代改进等方面的能力——这些行为曾被认为是人类独有的。本综述从生命科学、化学、材料和物理等领域出发,对自主科学发现进行了面向学科的系统性回顾,综合各学科的研究进展与突破。我们通过一个综合框架统一了此前分散的三类视角——过程导向、自主性导向和机制导向——并将其与基础能力、核心过程及领域特定实现联系起来。在该框架的基础上,我们:(i) 追溯 AI for Science 的演进,(ii) 识别支撑科学自主性的五大核心能力,(iii) 将科学发现建模为动态的四阶段工作流,(iv) 回顾其在生命科学、化学、材料科学和物理学中的应用,(v) 综合关键挑战与未来机遇。本研究确立了一个面向学科的自主科学发现综合视角,并将智能体科学定位为推动 AI 驱动科研进步的结构化范式。 关键词: 智能体科学,自主科学发现,自然科学,AI for Science,智能体化 AI,大语言模型

1. 引言

科学发现正经历着一场由人工智能(AI)快速演进所驱动的变革性转变,AI 的角色正在从专门化的工具转向科研合作者。这一进展标志着“AI for Science”范式中的关键阶段,即 AI 系统已从充当面向特定任务的计算“神谕”【121, 306, 339, 42, 87, 281, 351】逐步走向智能体科学(Agentic Science)的兴起(见图 1)【229, 220, 81, 274, 157】。智能体科学指的是“AI for Science”演化中的特定阶段——主要对应图 1 中的第 3 级(完全智能体化发现),其前身是第 2 级(部分智能体化发现)。在这一阶段,AI 作为自主科学智能体,能够独立提出假设、设计并执行实验、解释结果,并以更少的人类依赖性迭代完善理论【229, 22】。这种进展得益于诸如 Intern-Discovery 这样的综合平台(其提供了对多样化 AI 智能体和数据集的访问),以及 Intern-S1 等展现出深度科学推理能力的多模态模型。 这一转变受到基础模型(尤其是大语言模型,LLMs)【82, 256, 351】的最新突破所推动。LLMs 在自然语言理解、复杂推理和工具使用方面提供了前所未有的能力【245, 348, 323, 338, 337】,从而催生出能够超越静态学习流程的 AI 智能体。这类智能体不再仅是被动的模型,而是作为动态的、目标驱动的实体,能够自主探索科学方法【311, 89, 178, 358】。从假设生成【307, 209】,到自主实验【22, 317】,再到合成数据集的构建【150】,这些智能体展现出曾被认为仅属于人类的涌现行为。 与现有综述的比较。 尽管该领域发展迅速,但关于如何理解与设计日益自主化的科学系统,目前仍缺乏统一的框架。现有综述大体可分为三类互补视角。过程导向的综述试图将 LLM 的能力映射到经典的 与现有综述的比较。 尽管研究进展迅速,但关于如何理解和设计日益自主的科学系统,仍缺乏统一框架。现有综述可沿三条互补轴线加以归类:过程导向的视角将 LLM 的能力映射到经典研究循环【172, 352, 39】;自主性导向的研究依据系统的主动性与责任划分等级【346, 293】;机制导向的分析则剖析支撑智能体行为的架构基元及其演化角色【220, 331, 81, 274】。尽管这些工作奠定了重要基础,但仍然碎片化——往往将工作流程、自主性分级或体系结构彼此割裂开来单独考察。 我们的贡献。 有别于既有综述分别从过程、自主性或架构单点切入,本文通过图 2 所示的综合框架对上述视角进行统一与拓展,将自主科学发现中的基础能力—核心过程—领域实现贯通起来。我们围绕生命科学、化学、材料与物理四大领域,给出面向学科的自主科学发现综述,系统综合各学科的研究进展与代表性成果。该统一视角将智能体科学从一个抽象阶段提升为贯穿“能力—过程—应用”的结构化研究范式。我们的具体贡献如下: 1. 绘制 AI for Science 的演进图谱。 我们追溯了从“计算神谕”到“自主科研伙伴”的演进,形式化地将智能体科学界定为 AI 系统展现自主性、目标驱动推理与迭代学习的阶段。 1. 科学智能体的“机理解剖”:五大核心能力。 我们识别并分析科学智能体所需的五项基础能力:(i) 推理与规划,(ii) 工具整合,(iii) 记忆机制,(iv) 多智能体协作,以及 (v) 优化与进化。针对每一项能力,我们回顾最前沿的实现(如【169, 25, 189, 32】)与领域特定挑战。 1. 智能体科学的动态工作流:四个核心阶段。 我们将科学发现建模为由智能体驱动的动态四阶段工作流:(i) 观察与假设生成,(ii) 实验规划与执行,(iii) 数据与结果分析,(iv) 综合、验证与进化。我们强调,智能体可以灵活、动态地组合这些阶段以解决复杂科学问题【12, 22, 74, 73】。 1. 跨自然科学的系统综述。 我们在自然科学四大领域(见图 4:生命科学、化学、材料、物理)系统回顾智能体系统,覆盖十余个细分方向,从药物发现【317】到材料设计【113】,展示了智能体科学的广泛适用性与领域特定创新。 1. 挑战与未来机遇。 我们综合该领域面临的主要技术、伦理与哲学挑战——包括可复现性新发现的验证人—智能体协作——并提出研究路线图,以引导稳健、可信且具影响力的科学智能体的未来发展。

通过上述综合,我们旨在为智能体科学奠定概念与方法论基础,引导后续研究走向能够与人类探究共进化的 AI 系统设计,从而加速科学发现前沿的推进。

成为VIP会员查看完整内容
33

未来战争将以数据、算法和算力为核心竞争要素,只有实现全面AI赋能的人机融合部队,才能在未来冲突中掌握主动权。JADO强调多军种深度联合作战,实现陆、海、空、天、网、电等全域的跨域融合;JADC2作为JADO概念走向实践的核心要素之一,在预算投入上,2024财年美国为JADC2专门申请约14亿美元研发经费。   未来战场无人化势在必行,无人化作战主要可分为侦察、袭扰、定点打击、饱和攻击和支援增效,现代战争已经迈入以无人机、地面机器人为代表作战核心的时代。全球军用无人机市场正处于高速增长阶段,根据FORTUNE Business Inights预测,预计到2032年,市场规模将超过500亿美元,2024-2032年均复合增长率达到13.15%,这一增长得益于AI赋能无人机技术的飞速发展,自主作战能力显著提升成为核心驱动力。   AI与无人技术的深度结合正在引领现代战争的变革,不仅在俄乌冲突中展现了较大潜力,也得益于全球多家AI军工领先   企业的共同推动。以Palantir、Anduril Industry、Scale AI、Shield AI为代表的军工国防科创企业,正通过各自的创新产   品和技术为无人机领域注入新的活力;其中Palantir和Anduril正在与SpaceX、OpenAI、Saronic以及Scale AI等核心竞   争对手进行密切洽谈,计划2025年组建面向传统军火商的创新商业联合体(LMT、波音和雷神等),以争夺美国高达8500亿美元年度国防预算中的更大份额。   以NVIDIA、高通、AMD等领先厂商为代表的军用边缘AI主控芯片供应商,凭借军规级可靠性与丰富的传感器接口,正加速驱动无人装备等平台的前沿智能化与自主化升级。我们认为,国产边缘AI主控芯片以瑞芯微等为代表的企业正加速切入军用无人平台的边缘算力市场,具备潜力市场空间。  

成为VIP会员查看完整内容
29

2011年12月美军最终从伊拉克撤军后,美国大多数军事领导层渴望将重心从“反叛乱作战”——该理念在2000年代末的反恐战争期间于美军中取得了思想主导地位——转回常规作战。负责向作战司令部提供部队的各军种参谋长是最早提出其军种需要“回归基础”并解决常规作战技能萎缩问题的群体之一。相比之下,联合参谋部则忙于应对一系列危机,如利比亚局势、叙利亚内战以及所谓“伊斯兰国”的崛起。此外,美国在阿富汗维持着逐步减弱的军事存在,因此联合参谋部陷入了关于未来方向的似乎永无止境的争论,这种情况一直持续到2021年8月喀布尔撤离行动。2011年8月美国联合部队司令部(USJFCOM)的裁撤进一步强化了联合参谋部对当下事务的固有偏向。此举将概念与能力开发的责任从作战司令部性质的USJFCOM转移至联合参谋部各局下属部门——特别是J-7和J-8——使参谋长联席会议主席成为未来联合部队唯一的四星倡导者。这些因素导致传统上专注于规划与当前行动的联合参谋部,直至2021年《联合作战概念》发布前,始终无法有效领导联合部队向对抗对等敌人的作战方式转型。该概念是自美军深陷反恐战争之前以来,最具影响力的聚焦常规作战的联合思想。它同时也是国防部(DOD)历时十年重新以大国为指向的结果。重新定位联合部队于常规作战的初期行动因缺乏紧迫感和聚焦点而受阻。这在很大程度上源于对美国主要军事竞争对手身份缺乏共识,或未能认识到在中东事务牵制美军期间,其他大国推进军队现代化的程度。

成为VIP会员查看完整内容
31

具身智能(Embodied AI)旨在发展能够具备物理形态、并能在真实环境中进行感知、决策、行动与学习的智能系统,这为通用人工智能(AGI)的实现提供了一条有前景的路径。尽管经过数十年的探索,具身智能体在开放动态环境中执行通用任务时,仍然难以达到人类水平的智能。近年来,大模型的突破性进展彻底革新了具身智能,显著增强了其在感知、交互、规划与学习方面的能力。 本文对大模型赋能的具身智能进行了全面综述,重点聚焦于自主决策具身学习。在决策方面,我们探讨了分层决策端到端决策两类范式:具体而言,大模型如何增强分层决策中的高层规划、低层执行与反馈机制;以及大模型如何提升视觉-语言-行动(Vision-Language-Action, VLA)模型以支持端到端决策。在具身学习方面,我们介绍了主流的学习方法,并深入阐述大模型如何提升模仿学习强化学习。首次地,我们将**世界模型(World Models)**纳入具身智能的综述,介绍其设计方法及其在增强决策与学习中的关键作用。 尽管该领域已取得了实质性进展,但仍然存在诸多挑战。本文最后对这些挑战进行了讨论,并展望了未来可能的研究方向。 附加关键词与短语:具身智能,大模型,分层决策,端到端,模仿学习,强化学习,世界模型

1 引言

具身智能(Embodied AI)[209] 旨在发展具备物理形态的智能系统,使其能够在真实环境中进行感知、决策、行动与学习。该领域认为,真正的智能源于智能体与环境的交互,因此为实现通用人工智能(AGI)[184] 提供了一条前景可期的路径。尽管具身智能的探索已经持续了数十年,但要赋予智能体类人水平的智能,使其能够在开放、非结构化且动态的环境中执行通用任务,仍然面临巨大挑战。 早期的具身智能系统[21, 200] 基于符号推理与行为主义,依赖僵化的预编程规则,因而表现出有限的适应性与表层智能。尽管机器人已广泛应用于制造、物流和特定操作,但它们的功能依然局限于可控环境。机器学习[133],尤其是深度学习[99] 的进展,为具身智能带来了重要转折点。基于视觉引导的规划和基于强化学习的控制[173] 显著降低了智能体对精确环境建模的依赖。然而,这些模型往往依赖任务特定的数据集进行训练,在泛化性与可迁移性方面仍然存在不足,限制了其在多样化场景下的适应能力。 近年来,大模型[149, 150, 182, 183] 的突破性进展显著提升了具身智能的能力。凭借更强的感知、交互与规划能力,这些模型为通用型具身智能体[137] 的发展奠定了基础。然而,大模型赋能的具身智能仍处于萌芽阶段,在泛化性、可扩展性以及无缝环境交互方面依旧面临挑战[177]。因此,亟需对近年来大模型赋能具身智能的研究进行全面、系统的综述,以揭示其差距、挑战与机遇,从而推动 AGI 的实现。 通过对相关领域的系统调研,我们发现现有研究分散、主题复杂,但缺乏系统性分类。已有综述大多聚焦于大模型自身,例如大语言模型(LLM)[29, 151, 225] 与视觉语言模型(VLM)[104, 113, 191],而较少关注大模型与具身智能体的协同作用。即便有些综述涉及该方向,它们也往往集中于特定组件,如规划[188]、学习[7, 26, 204]、模拟器[201]与应用[157, 201, 209],而缺乏对整体范式及各组件如何交互以提升智能的系统性分析。此外,一些较早的综述遗漏了最新进展,尤其是自 2024 年以来迅速兴起的视觉-语言-行动(Vision-Language-Action, VLA)模型[117]与端到端决策。例如,综述 [119] 对 VLA 模型进行了详细介绍,但缺少与分层范式的比较以及对学习方法的深入探讨。同时,由于该领域发展迅速,早期的综述[48, 220] 已难以跟上最新研究。 在本文中,我们聚焦于大模型赋能的具身智能中的决策与学习,对相关研究进行分析与分类,厘清最新进展,指出尚存挑战与未来方向,为研究者提供清晰的理论框架与实践指导。我们与相关综述的对比见表1。 本文的主要贡献如下: 1. 从具身智能视角探讨大模型赋能。 在分层决策方面,具身智能涉及高层规划、低层执行与反馈增强,我们据此对相关工作进行回顾与分类。在端到端决策方面,具身智能依赖于 VLA 模型,因此我们综述 VLA 模型及其增强方法。在具身学习方面,我们重点考察模仿学习(IL)与强化学习(RL):在 IL 中,大模型如何赋能策略与网络构建;在 RL 中,大模型如何赋能奖励函数设计与策略网络构建。 1. 全面综述具身决策与具身学习。 本文不仅回顾了大模型赋能下的分层与端到端决策范式并进行对比,还系统性地讨论了具身学习方法,包括模仿学习、强化学习,以及迁移学习与元学习。此外,我们首次将**世界模型(World Models)**纳入具身智能的综述,探讨其在决策与学习中的作用。 1. 采用水平与垂直结合的双重分析方法。 水平分析比较了多种方法,包括不同类型的大模型、分层与端到端决策、模仿学习与强化学习,以及多样化的具身学习策略;垂直分析则追踪核心模型或方法的演化过程,阐述其起源、进展与开放问题。这一双重方法论既提供了宏观综述,也带来了对主流方法的深入洞察。

本文的组织结构如图1所示:第2节介绍具身智能的概念,综述大模型并讨论其通用能力提升,随后分析大模型与具身智能的协同关系。第3节探讨分层决策范式,详细阐述大模型如何增强动态高层规划、低层执行与基于反馈的迭代优化。第4节聚焦端到端决策,先介绍并分解 VLA 模型,再探讨在感知、动作生成与部署效率方面的最新增强,并在最后与分层决策进行系统对比。第5节介绍具身学习方法,特别是大模型增强的模仿学习与强化学习。第6节讨论世界模型及其在具身智能决策与学习中的作用。第7节总结开放挑战与未来前景,第8节给出结论。

成为VIP会员查看完整内容
30

并非所有人工智能(AI)都生而平等。虽然基础的大型语言模型能够处理和生成文本,但像OpenAI的GPT-4.5、Anthropic的Claude 4 Sonnet、Google的Gemini 2.5 Pro、Meta的LLaMA 4以及X的Grok 4这样的“前沿模型”(frontier models)则要强大得多。处于该领域最前沿的这类能力更强的模型,相比其更老旧、更小且更不先进的同类产品,拥有更深厚的知识库、更强的上下文理解能力以及增强的推理能力。在军队探索人工智能之际,选择能够驾驭现代战争无定形且不断变化本质的强大模型至关重要。在人工智能将在重大决策中发挥重要作用的军事应用中,前沿模型所具备的复杂程度并非奢侈品,而是必需品。

为何选择前沿模型?小型AI的局限性

前沿模型是利用海量数据训练出来的强大系统。然而,何为“前沿”会随时间变化——而且变化极快。

衡量模型能力的一个关键指标是其“参数”(parameters)数量——可将其视为模型从数据中学习时调整的内部设置。参数越多通常意味着模型能学习更细微的模式。例如,拥有1750亿参数的GPT-3.5在2022年底被认为是先进的。但仅仅几个月后,OpenAI发布了GPT-4,“前沿”的门槛也随之改变。于2023年初发布的GPT-4拥有超过一万亿参数,构建所需的计算资源是其前代的十四倍多。GPT-4还展现出许多不寻常的特性,即微软所称的“涌现行为”(emergent behaviors)。据报道,最近发布的Grok 4拥有超过1.7万亿参数,这是惊人的。与它们更小、专注于特定任务的前期模型不同,当今庞大的前沿模型展现出远为强大的推理、处理复杂性和理解上下文的能力。

推理能力与复杂性处理

更大的模型更擅长思考,尤其是在任务需要多个逻辑步骤时,例如起草完整文件或进行技术分析。它们综合海量数据集的能力使其能够进行逻辑推理、连接不同想法,并在长篇论述中保持连贯性。这在网络安全和情报等领域至关重要,因为好的决策依赖于审视多种因素、发现隐藏模式并理解敌方行动。更大的模型似乎也有助于减少常见问题,如编造信息(通常称为“幻觉”,hallucinations)或表现出不公平倾向(“偏见”,biases)。另一方面,较小的模型在这些领域往往表现不佳。它们难以管理相互关联的信息片段,或在复杂问题中理清相互冲突的细节。这可能导致思维脱节、答案过于简单,以及无法处理诸如分析多样化威胁或理解复杂作战态势等复杂任务。当准确性和全面性至关重要时,模型的尺寸直接影响其分析信息和支援作战的能力。

上下文保持与泛化能力

另一个关键区别在于,更大的模型能够记住并利用长文档或讨论中的信息。这在军事应用中尤为重要,因为准确性和一致性至关重要。无论是处理情报报告、起草战略指导,还是在网络行动中综合大量日志,前沿模型都能保持一定程度的连贯性,从而减少不一致性并减轻人类分析员的认知负担。适应新情况对小模型来说也是一项挑战;它们未经过足够多样化数据的训练,无法处理前所未见的事物。前沿模型在庞大数据集上训练而成,并能同时考虑大量信息,因此更擅长处理通用任务,并能将旧知识应用于新问题而无需重新训练。较小的架构需要大量微调才能达到类似性能水平,但随后仅能在狭窄领域取得成功,使其在需要灵活性和快速适应的动态作战环境中显得脆弱。

诚然,小模型已展现出相比其前代的显著改进,甚至在某些狭窄指标上接近GPT-4等模型的能力。但GPT-4早已不再是最先进的前沿模型。这种比较并不具备许多人认为的分量。与此同时,现代前沿模型已变得如此强大,以至于让它们的前辈看起来像玩具。

前沿模型对指挥官与参谋人员的重要性

高级领导者处理复杂、模糊不清的局面和过载的信息。前沿模型可以成为决策的有力助手,快速准确地汇总海量数据并解释要点。当参谋工作需遵循特定政策、法律规则和作战目标时,这些适应性强的模型可提供清晰的评估,确保建议合乎逻辑且一致。与难以在变化环境中平衡多种因素的小模型不同,更大的系统能结合过往案例、军事条令和当前信息,提出切实可行的行动方案。这能加速决策过程。高级领导者将获得条理清晰的分析,解释风险、收益以及选择可能对任务产生的影响——一个单一的AI系统有可能完成当前需要多个庞大参谋团队才能完成的任务。在速度与准确性同等重要的时代,利用先进AI辅助决策不仅有益,而且必不可少。

前沿模型在防御性网络行动中的重要性

执行初步分析并加速调查。在当今的网络安全工作中,数据的海量和高速使得快速区分真实威胁与正常网络活动变得困难。前沿模型通过自动化初步审视这些数据可发挥关键作用:梳理安全日志、关联来自不同系统的相关告警、并在人类分析员介入前过滤掉不重要信息。这将使分析员从常规工作中解脱出来,使其能专注于明确的网络攻击迹象。除了这种初步分类,这些模型还能通过帮助创建高级数据检查方法、发现异常活动以及提供通常需要数小时人工工作的背景信息来加速调查。较小的模型难以进行多步骤思考并比较来自不同(尤其是大型)数据集的信息。然而,前沿模型足够强大,能够处理这些极其困难的任务。随着攻击者行动更快更频繁,这种AI能力对于效率和成功防御我们的网络都至关重要。

增强训练。良好的网络训练需要的不仅仅是固定的课程计划和老旧案例;它需要适应新威胁的逼真、灵活的教学。即使小型语言模型也有能力通过动态数据集和响应式场景来补充这种训练,但只有前沿模型才具备构建训练本身的能力。

较小的模型缺乏创建超越基础练习的有用网络训练所需的深刻理解。利用前沿模型,组织可以创建一个随着敌方方法变化而不断更新的网络训练系统。这确保我们的网络部队为现实挑战做好准备,而不仅仅是教科书案例。

但谁来构建它们?

前沿模型对军事应用的关键性引出了关于如何提供资源并实现该能力的重要问题。如果给予机会,许多士兵能做的远不止日常例行任务。这是“陆军软件工厂”(Army Software Factory)的基本假设,该工厂让服役人员开发软件,否则政府可能需要向承包商支付两倍、三倍甚至十倍的费用。但这与在最尖端技术水平上构建、调优或部署——或三者兼有——军队真正需要的那种最先进AI模型并非一回事。

另一个挑战是变化的快速步伐。一年前,若能在一个经认证的平台上使用现代模型,会欣喜若狂。如今,通过CamoGPT等平台拥有了这种能力。然而,目标已经改变。在过去几个月中,诸如用于增强复杂问题解决的专用推理引擎、像笔记本语言模型(NotebookLM)这样用于整合研究与写作的工具、像深度研究(Deep Research)这样的高级语义搜索能力,以及达到人类水平的文本转语音模型等变革性创新,极大地提高了大型语言模型的可靠性和实用性。军队花了一年时间追赶,结果却发现当他们赶上时,业界已遥遥领先。美陆军新的生成式AI平台——“陆军企业大型语言模型工作空间”(Army Enterprise Large Language Model Workspace),由Ask Sage提供支持,至少接近了目标,但缺乏许多这些关键功能及更多功能,并且还因采用基于令牌(token)的订阅方案(要求各单位自费购买访问权限)而执行不力——这是一个很少有人可能克服的障碍。也许到2026年,政府系统将拥有2025年今天可在商业上获得的AI能力,但也可能没有。即使有,民用与军用技术之间一年或更长时间的延迟也是一个显著差距。

然而,依赖外部创新将重大的法律和数据安全挑战推到了前沿。一个令人不安的事实是,大多数商业技术,包括军队所需的强大前沿模型,在设计时并未考虑处理政府拥有的非密和密级数据的严格要求。商业实体收集、汇总并最终将敏感军事数据用于其自身训练集、模型改进或商业利润的前景,不仅是一个假设性担忧,更是对数据主权的切实风险和对作战安全的严重关切。

这种困境使“自建还是购买”的权衡变得复杂。虽然内部开发真正的前沿模型难度陡增,但简单地接入没有严格数据控制的商业产品则是在招致灾难。精心构建数据治理框架、为政府用例建立独立安全的模型运行和微调飞地(enclaves)、以及明确定义并严格执行知识产权所有权和数据使用权——确保政府保留对其数据及任何利用其开发的AI能力的控制权——至关重要。这些不仅仅是官僚障碍,而是必须从一开始就融入军队AI采用战略的基本保障措施,以免旨在增强我们能力的工具本身成为泄密的渠道。

结论

“军用级”(military grade)一词在军队中常常是个笑话。平民认为它意味着“高质量”,但服役人员知道它通常意味着满足某些模糊标准的最便宜产品。我们面临AI领域发生同样事情的风险。为加速国防部门采用AI,美五角大楼设立了“AI快速能力小组”(AI Rapid Capabilities Cell),但军队对通用需求的偏好,加上对大型语言模型糟糕的评估方法,很可能导致军队配备性能不佳的聊天机器人,仅仅因为它们成本更低,而非迫切需要的强大得多的力量倍增器。CamoGPT、现已停用的非密互联网协议路由器网络GPT(NIPRGPT)等平台虽好但不够卓越——通过这些平台可用的小模型与当今前沿模型之间模糊但至关重要的差异不容忽视,不能因为“够用就好”的理念而被抛弃。事实上,在CamoGPT中运行的小型开放权重模型与在专用数据中心运行的前沿模型之间的差异并非微不足道。AI应增强决策能力、优化工作流程并强化网络防御。在这些AI将在重大军事决策中发挥重要作用的背景下,前沿模型所具备的复杂程度并非奢侈品,而是必需品。

通过投资并整合前沿模型,军队可以实现AI的潜力——不是作为人类专业知识的替代品,而是作为增强决策能力、优化工作流程并强化网络防御不可或缺的工具。另一种选择——由于采购惰性或未能优先考虑而固守老旧、受限的模型——将导致停滞不前,而对手则在迅速采用——甚至自行开发——更优越的AI技术。为避免丧失技术优势,军队不仅必须投资并整合当前的前沿模型,还必须培养制度灵活性以持续适应不断演变的AI格局。在加速变革的时代,接受“够用就好”的AI是无法承受的风险。

参考来源:美国陆军

成为VIP会员查看完整内容
33

**2025 年 8 月 7 日,OpenAI 发布《GPT-5 System Card》(下称 Card)。这是一份 50+ 页的“白皮书”——既是模型能力的答卷,也是安全治理的蓝图。相比以往系统卡,GPT-5 在 架构形态、推理范式、安全框架 上都有质的跃迁,足以成为 AI 产品经理、技术决策者与政策观察者的必读材料

**

  • 统一系统架构:GPT-5是一个整合了快速响应模型、深度推理模型和实时路由模型的统一系统,可根据对话类型、复杂度等自动选择最优模型,未来计划整合为单一模型。
  • 安全训练革新:从传统的“硬拒绝”(直接拒绝风险请求)转向“安全完成”(在符合安全政策的前提下最大化有用性),大幅提升双用途场景(如生物、网络安全)的安全性和有用性。
  • 关键能力提升:在减少幻觉( factual errors)、降低谄媚行为(sycophancy)、抵御越狱攻击(jailbreaks)、增强指令层级遵守能力等方面取得显著进步,尤其在健康、多语言处理等领域表现突出。
  • 严格外部评估:通过超过400名外部测试者和专家的红队测试(累计超9000小时),在暴力攻击规划、提示注入等风险场景中验证了安全性,多个外部机构(如Microsoft AI Red Team、Pattern Labs)评估其安全性优于前代模型。
  • 生物与网络安全防护:将GPT-5-thinking列为“高生物与化学风险”等级,实施多层防护措施(模型训练、系统级监控、账户级 enforcement、API访问控制等),并通过第三方红队和政府机构测试验证有效性。

成为VIP会员查看完整内容
29

大型语言模型(LLM)的出现极大地革新了网页搜索。 基于 LLM 的搜索智能体的兴起,标志着信息检索向更深层次、更动态、更自主化方向的关键转变。这类智能体能够理解用户意图和环境上下文,并通过动态规划执行多轮检索,将搜索能力扩展到远超传统网页搜索的范围。 以 OpenAI 的 Deep Research 为代表的前沿案例,凸显了它们在深度信息挖掘和真实世界应用中的巨大潜力。 本文首次对搜索智能体进行了系统性分析,从体系结构、优化方法、应用场景和评测方式四个维度,对现有研究进行了全面的分析与分类,最终识别出该领域中的关键开放挑战,并提出了有前景的未来研究方向。 我们的资料库可在以下地址获取:https://github.com/YunjiaXi/Awesome-Search-Agent-Papers。

1 引言

**

**

大型语言模型(LLM)的出现,开启了自然语言处理的新纪元,并从根本上改变了包括网页搜索在内的众多领域(Wang et al., 2024b; Zhao et al., 2023; Hadi et al., 2023; Xi et al., 2025c; Lin et al., 2025a, 2024; Xi et al., 2025b, 2024a)。如图 1 所示,传统网页搜索需要用户在结果列表中手动筛选和整合相关信息(Lin et al., 2021; Dai et al., 2021; Fu et al., 2023)。随着 LLM 的兴起,出现了LLM 增强搜索这一新范式,其中 LLM 会改写用户查询以提升搜索准确性(Ma et al., 2023b; Liu and Mozafari, 2024; Xi et al., 2024b),或对搜索结果进行摘要以加快理解过程,即传统的检索增强生成(RAG)(Gao et al., 2023; Fan et al., 2024)。然而,这种集成方式往往是静态的,因为 LLM 依赖于单轮或基于规则的迭代搜索,难以有效处理复杂且动态变化的上下文。

LLM 智能体的出现带来了关键转变,催生了搜索智能体(Zhang et al., 2024b)。借助自主性,搜索智能体能够掌控整个搜索流程,更有效地利用上下文进行自适应推理与动态检索。在这一范式中,搜索成为一种主动行为,不再局限于网页,而是扩展到更广泛的信息源,例如私有数据库以及智能体内部的经验。具体而言,搜索智能体可定义为:一种能够理解用户意图与环境上下文、自动规划搜索策略、从多样化来源执行多轮动态检索,并整合信息以提供全面洞见的 LLM 智能体。业界领先的解决方案,如 OpenAI 的 Deep Research(OpenAI, 2025)、Gemini(Gemini, 2025)以及 Perplexity(Perplexity, 2025),充分展示了搜索智能体在深度信息挖掘与商业化方面的潜力。

鉴于这些快速发展,本文从多个视角对搜索智能体进行首次系统性综述,围绕如何搜索如何优化如何应用以及如何评测四个维度展开分析。与近期仅聚焦于特定子领域或单一视角的综述不同,例如强调从大量信息检索生成专业报告的 Deep Research(Xu and Peng, 2025; Huang et al., 2025b)或关注推理与 RAG 结合的研究(Liang et al., 2025; Gao et al., 2025),我们的工作全面剖析了搜索智能体的全流程,包括其搜索结构、优化方法、应用场景、评测体系及面临的挑战,并对各部分的代表性工作与发展趋势进行了深入分析。

本文结构如下:第 2 节介绍搜索智能体的任务定义;第 3 节“如何搜索”探讨智能体如何扩展搜索轮次并利用复杂的搜索结构(如并行、顺序与混合)来确定查询内容;第 4 节“如何优化”讨论搜索智能体的多种优化方法,包括调参与无调参手段;第 5 节“如何应用”阐述搜索智能体的广泛应用领域,涵盖智能体内部增强(如推理、记忆与工具使用)与外部应用(如数学、医学与金融);第 6 节“如何评测”介绍搜索智能体的评测方法,包括相关数据集与指标;最后,第 7 节总结当前的挑战并展望未来的研究方向。

成为VIP会员查看完整内容
29

欢迎来到 《DeepSeek AI 从入门到付费职业》第一部分!在本篇中,我们将深入探讨 DeepSeek——一个正在革新 AI 解决方案构建、部署与扩展方式的前沿平台。无论你是刚刚踏入生成式 AI 领域的初学者,还是希望进一步提升技能的中级学习者,本部分内容都将为你提供实用的操作技能与理论知识,助你掌握 DeepSeek,并创建可部署的 AI 应用。 本书是所有希望不仅了解 如何使用 AI,更要明白 为什么 AI 在当今飞速发展的世界中如此重要 的读者必读之作。通过理解 AI 的社会与伦理维度,你将能够更好地设计出既创新又负责任、真正有影响力的解决方案。 让我们踏上这段激动人心的 DeepSeek 学习之旅吧!你将通过循序渐进的项目、真实的应用场景以及可扩展的 AI 解决方案,全面掌握相关技能。无论你是在构建第一个 AI 模型,还是在生产环境中部署高级系统,本部分内容都将赋能你把创意转化为现实。现在,就开始吧!

成为VIP会员查看完整内容
28

当小型无人机系统(sUAS)由疏忽、鲁莽或恶意操作者操控时,将对地方及联邦机构构成重大威胁。随着sUAS与传统航空器共享空域的情况日益增多,且其可能作为武器侵入管制空域,人员、设施及资产防护已成为核心议题。本研究通过集成低成本分布式传感器与机器学习(ML)模型,提升战场态势感知能力,补强现有传感平台对sUAS的实时探测、分类与定位效能。

本文提出"无人机侦测指挥中心"(DDCC)概念架构。该系统对接分布式节点网络,通过声学与光学双模态实时获取sUAS数据,并具备截取关键帧能力以增强未来机器学习模型的预测性能。基于大疆Matrice 600 Pro采集的数据集,构建多组深度学习模型实现sUAS存在性分类及节点距离预测。重点评估声学测距性能(与光学测距对比),最终融合多源数据构建定制模型,验证融合数据是否优于单模态方案。初步实验显示:声学分类准确率79.6%,光学分类准确率86.7%;独立测距任务中声学平均绝对误差10.463米,光学误差16.961米;经卷积循环神经网络处理融合数据后,平均绝对误差降至9.57米,较声学数据提升0.88米,较光学数据提升7.385米。

本章首先阐明研究问题与目标,随后介绍DDCC系统——该专有平台可同步联动多传感器执行"记录"与"预测"指令。

在sUAS激增的背景下,无论操作者性质(疏忽/恶意/军事),均对地方及联邦机构安全构成紧迫威胁。面对sUAS与传统航空器空域共享及其武器化趋势,人员设施防护已成关键挑战。本研究旨在验证"低成本分布式传感器+ML模型"在sUAS探测、分类及测距中的有效性,并构建DDCC系统——该系统可加载预训练模型,基于视频、音频及融合数据实现sUAS存在性识别与距离测算。

本文致力于解决空基威胁探测的多维挑战(特指sUAS),通过在DDCC中融合"声学特征卷积循环神经网络"(CRNN)与"YOLOv8目标检测模型",构建可实时识别、分类及测距的全域解决方案。研究目标明确如下:

  1. 一体化架构集成:研究CRNN声学分析与YOLOv8视觉检测在DDCC中的无缝融合,设计优化双模态协同架构
  2. 声学测距回归模型:构建训练CRNN实现声源测距(单位:米)
  3. 光学测距回归模型:构建训练全连接深度神经网络实现视频源测距(单位:米)
  4. 训练验证体系:采用多样化sUAS场景数据集对视觉/声学组件进行严格训练验证,优化模型鲁棒性
  5. 跨模态融合技术:开发创新融合算法整合视听信息,发挥多模态互补优势。融合核心目标在于证明"视听结合"较单模态具有更高预测精度

DDCC作为专有系统,通过传感器网络执行指令(如记录/预测)。其客户端界面采用3x3网格排列的九宫格视频流布局,每区块均支持"连接"、"录制"、"预测"、"静音"功能键,配备服务器主机配置文本框及远程重启下拉菜单。树莓派4服务器传输的实时音视频流显示于对应区块,捕获数据的分类预测结果集中呈现在日志域。系统可加载预训练模型执行定制化预测任务,本研究特训模型专注于基于视频/音频/融合数据的sUAS存在性识别与距离测算。

文档结构如下:第二章详述sUAS探测技术背景与研究进展;第三章解析DDCC系统设计与节点配置;第四章阐述数据采集、模型构建及训练验证方法论;第五章呈现全流程实验结果;第六章探讨未来sUAS数据采集路径;第七章总结研究并给出结论陈述。

成为VIP会员查看完整内容
25

信息战的战场已转移至在线社交网络,影响力行动在此以前所未有的速度和规模运作。与任何战略领域一样,成功需要理解环境、建模对手并执行干预措施。本教程介绍了一种用于社交媒体信息作战(IO)的正式优化框架,其目标是通过有针对性的行动塑造舆论。该框架由网络结构、用户观点和活动水平等参数化——所有这些都必须从数据中估计或推断。讨论了支持此过程的分析工具,包括用于识别有影响力用户的中心性度量、用于检测社区结构的聚类算法以及用于衡量公众情绪的情感分析。这些工具要么直接输入优化流程,要么帮助防御分析师解读信息环境。在描绘环境图景后,我们重点强调了诸如协调的机器人网络、极端分子招募和病毒式虚假信息等威胁。应对措施范围广泛,从内容层面的干预到数学优化的影响力策略。最后,生成式人工智能(AI)的出现改变了进攻和防御两方面,既“使说服能力扩散化”,又实现了可扩展的防御。这种转变呼吁算法创新、政策改革和伦理监督,以保护我们数字公共领域的完整性。

国家选举候选人势均力敌。选民分裂并固守于其意识形态阵营。但在集会和政策辩论的表象之下,一场更具战略性的行动正在展开。千里之外的外国特工策划行动以改变局势平衡——不是通过投票机黑客攻击或选票造假,而是通过模因(meme)、假新闻和旨在操纵社交媒体话语的自动化账户网络。

这就是信息战的现代现实。影响力已从广播和报纸转移到数十亿人每日聚集的数字网络。在这里,战争的工具是推文,战场是信息流和时间线,而胜利者则是那些理解信息如何流动、观点如何形成以及公众情绪如何通过精心设计的信息被影响的人。

信息作战(IO)指的是通过控制信息流来影响、破坏或操纵人群信念或决策的协调行动。虽然信息作战长期以来以传统形式存在——例如宣传和心理战——但社交媒体的兴起极大地放大了其影响范围和效力。一条信息可以在早晨设计出来,并在下午通过病毒式分享和参与度优化的算法传播给数百万人。这些平台旨在最大化用户注意力而非确保真实性,为试图大规模散布混乱或分裂的行为者创造了理想条件。要理解信息作战如何在线上显现,理解关键行为者和所涉及的内容类型至关重要。社交媒体平台由普通用户、机器人(bot)、网络水军(troll)和极端分子混合组成。机器人是模仿人类行为的自动化账户——大规模放大内容、扭曲参与度指标或用协调一致的信息淹没对话。网络水军是故意挑衅、误导或破坏对话以散布不和或操纵舆论的人类用户。极端分子同样利用社交平台,但其目标更为严重,旨在使受众激进化、招募追随者或煽动暴力。这些恶意行为者对平台上的普通用户构成重大风险。

除了极端分子构成的直接威胁和暴力呼吁外,另一种危险来自虚假内容的传播。此类内容通常旨在引发强烈情绪反应而非传递准确信息。最常见的类型包括错误信息(无意欺骗而分享的虚假信息)和虚假信息(故意欺骗而分享的虚假信息)[11]。两种形式都可能对个人造成伤害并侵蚀公众信任。社交媒体平台的高度连通性使此类内容得以迅速广泛传播,可能对个人、机构乃至整个社会造成严重损害。要设计有效的信息作战,我们首先必须了解需要知道和控制什么。我们需要描述网络结构——谁与谁互动以及信息如何流动。需要了解公众舆论的现状,以及任何现有影响力活动的存在和有效性。最后,我们必须明确可用于干预的工具和手段:我们可以部署的代理、他们可以创建的内容以及我们可以触达的受众。

这自然引出了一个优化公式,称之为信息作战优化问题,其中先前研究[49, 6, 100]中确定的影响力活动的分析维度被转化为决策变量和目标。我们将社交媒体环境表示为一个网络 G = (V, E),其中 V 是一组用户,E 捕捉他们之间的关系——例如关注关系、行为相似性或信息流速率。每个用户 i ∈ V 在时间 t 持有状态 Θi,t,代表其对给定主题的观点、信念或情绪。目标是在时间范围 T 内引导这些观点,以实现期望的战略成果,例如建立共识、减少两极分化或对抗对手影响力。

这就是“监测、识别、评估、反制”(MIAC)框架发挥核心作用的地方。它提供了信息作战优化问题的结构化分解,每个阶段要么贡献于关键输入的确定,要么贡献于可操作干预措施的设计。如图1所示,以反制机器人影响这一具体问题为例,这个顺序流程展示了如何将原始观测数据转化为有针对性的影响力活动。

图1 MIAC流程将信息作战优化问题分解为四个相互依存的阶段。每个阶段为下一阶段提供输入,将原始数据转化为结构化的干预措施。此示例说明了在在线讨论中反制机器人的影响。改编自[86]。

“监测”(Monitor)通过构建网络 G = (V, E) 并估计初始用户状态 θ0 来启动该过程,利用用户互动、内容曝光模式和情绪分布等数据。“识别”(Identify)检测网络中嵌入的对手行为者——机器人或其他协调团体——他们可能被移除(在平台层面行动的情况下)或明确纳入状态(例如观点)动态建模中。“评估”(Assess)通过模拟 f(·) 来建模状态轨迹的演变,量化正在进行的活动的有效性,并帮助根据期望的网络级结果定义目标函数 e(·)。最后,“反制”(Counter)通过选择和部署最优干预措施来完成闭环。这涉及选择适当的行为者类型、行为策略、内容特征和定向计划——表示为决策变量 (a, b, c, d)——以影响网络。人工智能(AI)工具通常用于大规模生成和分发有说服力的内容,使这些干预措施更高效且可扩展。

这种分解既提供了流程清晰度,也提供了计算可处理性。MIAC 不是端到端地解决一个庞大的优化问题,而是实现了一个模块化的工作流程,其中每个阶段约束并告知下一个阶段,从而减少解空间的维度并使干预措施与现实世界的约束保持一致。在实践中,“反制”阶段是战略设计变为执行的环节。大规模部署影响力不仅需要确定说什么以及对谁说,还需要生成在情感和修辞上能引起受众共鸣的内容。现代生成式人工智能工具——尤其是大型语言模型(LLM)[126, 27, 3]——在此发挥着变革性作用。这些系统可以生成由情绪、语气、幽默和用户偏好塑造的针对性、适应性强的信息,从而使优化的输出可操作化,并闭合分析与行动之间的循环。本教程的其余部分遵循 MIAC 结构。

第2节介绍社交媒体分析的基础方法,重点关注网络中心性和社区检测。第3至第6节为每个 MIAC 阶段提供详细方法。第7节探讨人工智能工具如何增强信息作战威胁和防御。我们在第8节以这个快速演进领域中的开放研究问题作为结束。

成为VIP会员查看完整内容
25

实现人工通用智能(Artificial General Intelligence, AGI)需要开发能够跨越多种感知模态——不仅限于语言——去感知、理解并与世界交互的模型。尽管自监督学习(self-supervised learning)已在大型语言模型(LLMs)中取得了显著突破,但在视觉领域复刻这一成功仍面临重大挑战,其主要原因在于当前仍高度依赖人工标注数据。本文探讨了自监督学习如何突破人类监督的限制,释放视觉智能的潜力,使模型能够直接从视觉世界固有的结构与规律中学习。 本论文围绕这一愿景,展开了多项探索与实践。首先,我们研究了自监督的视觉世界理解,证明了模型无需依赖如 Segment Anything Model(SAM)等监督方法所需的数十亿标注掩膜,也能实现强大的图像分割性能。相反,我们的工作表明,模型可以通过利用未标注数据中丰富的语义信息,实现“分割任何物体”的能力。其次,论文提出了基于自监督与合成数据的方法,将生成式与判别式视觉模型进行统一,使二者能够互补,从而同时提升视觉理解与生成能力。再次,论文探讨了如何通过自监督去偏学习(debiased learning)构建鲁棒的视觉模型,提出了在数据条件不完美的情况下,缓解偏差并增强泛化性的技术方案,并将其置于数据中心(data-centric)的表征学习框架中进行系统化设计。 总体而言,这些工作服务于一个共同目标:构建可扩展的、多模态的视觉智能系统,使其学习方式不再是模仿人工标注,而是主动发现世界的潜在结构! 大型语言模型(Large Language Models,LLMs)[1]–[5],以 GPT 系列为代表,已经从根本上改变了人类处理和交互信息的方式。这些突破由两个关键因素驱动:互联网规模数据的广泛可得性,以及无需显式人类监督的自监督下一词预测范式。然而,语言只是人类智能的一个狭窄投影。要实现真正的人工通用智能(Artificial General Intelligence,AGI),模型必须整合更丰富的感知模态——涵盖视觉、物理交互、空间导航与社会动态——远远超越仅限于文本的范畴。其中,视觉智能至关重要:它是系统直接从原始像素中解析场景、定位目标、建模组合结构的能力,使其能够以最少的人类干预感知并推理视觉世界。 遗憾的是,尽管大型语言模型已能通过利用语言的组合性与结构性实现令人印象深刻的泛化,将这些成果扩展到视觉领域仍是一个重大未解难题。与文本不同,视觉数据是连续且高维的,缺乏天然的离散化单元或语义语法。此外,视觉领域的监督学习高度依赖大规模标注数据集,而这些数据集的采集成本高昂,且内容与分布往往存在偏差。 本论文试图回答:我们能否构建一种通用视觉系统,使其能从视觉数据的自然结构中学习——以极少甚至无需人类监督?我的目标是建立理论基础与实用的自监督学习(Self-Supervised Learning,SSL)方法,以处理多样化的真实世界视觉数据,并将其应用于复杂的下游任务。通过增强面向多模态模型的 SSL 技术、最大限度地减少对人工标注数据集的依赖,我力图开发能够理解并与环境交互的智能系统,使其在感知、认知与反应方面与人类相媲美,甚至超越人类。 为实现这一目标,我探索了一系列基于自监督学习的技术,从未标注的图像与视频中直接获取以物体为中心的、语义化的、可组合的表征。我着重利用视觉归纳偏置(visual inductive bias)、借助合成信号进行监督,并在统一的 SSL 框架下闭合判别式模型与生成式模型之间的回路。所有这些工作共同体现了一个更宏大的愿景:视觉智能应当从数据的结构中涌现,而非源于标签的结构。这一观点挑战了传统的监督学习范式,并倡导构建一种无需标签、数据驱动且可扩展的视觉系统。

成为VIP会员查看完整内容
25
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员