人工智能与数据分析正在重塑现代战争——在数字战场空间释放出前所未有的战略力量。
本文探讨人工智能(AI)将在信息战中扮演的革命性角色,重点关注其在数据分析、网络行动、心理影响及虚假信息管理方面的能力。研究假设认为,人工智能通过提供独特工具从根本上改变军事和情报机构实现战略主导权的方式,从而提升信息战策略的有效性。
信息战已超越传统间谍活动与宣传,涵盖通过控制与操纵信息以获取战略优势的广泛行动。随着数字技术的整合,信息战如今包括网络攻击、电子战以及旨在影响公众舆论与决策的心理行动。此演进的核心是人工智能,它实现了先进的数据收集、处理与分析,将信息战从早期形态转变为日益依赖信息主导权的动态复杂战场空间(Libicki, 2020)。
人工智能通过增强数据分析、网络行动及心理操纵能力,在现代战争中发挥关键作用。机器学习算法实现模式识别、异常检测与预测分析,而自然语言处理(NLP)与计算机视觉则扩展了实时解读海量数据并据此行动的能力。这些能力支持以下假设:人工智能显著放大信息战策略的影响,提供以往难以想象的运营与战略优势(Goodfellow, Bengio, & Courville, 2016)。
数据已成为现代战争中的基础资产,驱动情报搜集、决策制定与战术规划。许多军事组织如今依赖多种数据类型以维持态势感知并精准执行行动。关键数据类别包括:
收集与管理此类数据需要动态数据处理、弹性存储解决方案及网络安全措施,以保护敏感信息免遭未授权访问与网络威胁。
人工智能通过提供大规模数据分析、实时处理、预测性分析与数据融合的先进工具,显著增强数据利用效能。这些技术实现全面的态势感知,提升战场决策与作战效率。
网络战是现代军事战略的基石,涵盖防御性与进攻性行动。人工智能提供检测、预防与执行网络攻击的先进工具,提升网络战效能的效力。
网络战案例研究:诸如“震网”(Stuxnet)与“云跃行动”(Operation Cloud Hopper)等案例展示了人工智能增强型网络行动的潜力。这些案例揭示人工智能如何优化漏洞检测、自动化攻击向量并提升网络威胁的精准度(Zetter, 2014)。
虚假信息是信息战中的强大工具,能够影响公众舆论、煽动分歧并破坏信任。人工智能在虚假信息中扮演双重角色:既可创建与传播虚假信息,也能检测与缓解其影响。
案例研究:新冠疫情期间,人工智能系统被用于应对有关治疗方法与疫苗效力的虚假信息。社交媒体平台利用人工智能检测误导性内容,但虚假信息的广泛影响仍显而易见(Cinelli et al., 2020)。
人工智能通过实现精准定向、个性化信息传递与内容自动化,正在变革心理行动。通过行为分析与情感分析,人工智能定制宣传内容以引发特定受众共鸣,提升心理行动有效性。
伦理关切:人工智能在心理行动中的应用引发关于操纵、同意与个人自主权的伦理问题,凸显其应用中透明度与问责制的必要性(Susser, Roessler, & Nissenbaum, 2019)。
人工智能在信息战中的部署带来深远的伦理与法律挑战。必须解决问责制、隐私与偏见等问题,以使人工智能应用符合国际人道主义原则并保护个人权利。
伦理人工智能部署原则:透明度、人类监督、相称性及遵守伦理准则,是战争中负责任部署人工智能的基础。定期监测与评估确保人工智能系统在法律与伦理边界内运行,防范意外后果(Mittelstadt, Allo, Taddeo, Wachter, & Floridi, 2016)。
随着人工智能持续演进,其在信息战中的角色将愈发复杂。量子计算与先进机器学习等新兴技术将驱动此演进,扩展实时数据处理、密码学能力与自主决策的潜力。
人工智能通过提供数据分析、网络行动、心理影响与虚假信息控制的强大能力,正在变革信息战。尽管这些进步带来重大战略利益,它们也引入复杂的伦理与法律考量,需要深思熟虑的治理以促进负责任使用。优先考虑透明度、问责制与伦理标准对平衡人工智能潜力与必要监督控制至关重要。持续投资于研究、政策制定与国际合作,对最大化人工智能益处同时最小化风险具有决定性意义。
此外,随着数据日益成为冲突中的关键资产,人工智能正定位为国家战略资源。因此,领导者必须将数据主导权作为确保战场优势的重要目标优先考量。
参考来源:theforge
• 加拿大武装部队(CAF)中系统性的性暴力根植于一种深植且不断强化的组织文化,其特点包括性别化的权力结构、过度性化以及对服从性的极端压力。尽管进行了多次改革尝试,实质性的文化变革仍基本未能实现,部分原因在于缺乏针对负责变革的领导者的问责机制。
• 尽管已开展长达十年的性不当行为正式数据收集工作,加拿大武装部队至今仍无法准确评估其普遍性及相关趋势,也无法衡量预防措施的有效性。
• 尽管多个外部权威机构已指出性不当行为报告、监测与追踪中存在明显的数据缺陷,加拿大武装部队却未能有效应对已发现的数据碎片化、数据不适于目的以及数据治理不合规等问题。新近宣布的“仇恨行为数据库”旨在解决这些问题,却很可能重蹈现有缺陷的覆辙。
• 这场分析危机阻碍了有效的组织响应、针对性政策解决方案及问责措施的实施,使改革失败的循环持续存在。缺乏可靠数据导致政策设计与监测缺少关键输入、度量指标及可量化目标,各项活动仍继续被曲解为具有影响力。
• 一系列进步的组织数据战略共同阐明了加拿大武装部队对现代化、应用人工智能(AI)和区块链等技术以及建立分析驱动的制度化治理模式的承诺。然而,这些战略似乎仅限于情报与作战数据领域,尽管其管辖范围覆盖整个组织且具备解决性不当行为数据问题的潜力——这反映出一种以专注国家安全为借口、实则抵制文化变革的历史模式。
当环境发生变化,使我们难以实现目标时,我们必须进行适应。若只能单纯依赖进化来寻找更合适的基因程序,这将是一个极其缓慢的过程。幸运的是,进化“发现”了学习,人类能够通过经验进行适应,形成新的行为来完成当前任务。表面上看,学习就是这样:我们在某一任务上不断变得更擅长。但学习可能很慢,而我们却常常置身于新的情境中,不得不再次适应。幸运的是,任务很少完全陌生,更为重要的是,学习某些相似的东西通常会更容易。我们在某种意义上能够发现不同任务之间的共通结构,形成概括性的知识,并随着时间的推移不断改进学习策略。
本论文旨在研究这些能力如何在神经网络中得以实现。特别地,我们研究元学习(meta-learning),即通过经历一系列具有共同结构的任务来改进学习过程本身的能力。同时,我们探讨如何利用任务之间的一种特殊结构:可组合性(compositionality)——即通过有限的基本要素组合出大量不同的任务组合。我们将首先回顾本研究贡献所依赖的数学基础。具体而言,我们阐述了如何将神经网络中的元学习形式化为一个层次化的优化问题,或是一个序列建模问题。此外,我们还定义了“任务族具有可组合性”的含义,并据此形式化地提出**组合泛化(compositional generalization)**的目标。在这些理论背景的基础上,论文分为三个部分,旨在加深我们对神经网络中元学习与组合泛化的理解。
在第一部分中,我们提出了一种基于双层优化(bilevel optimization)的简单而精确的元学习算法。与以往需要在时间维度上反向传播梯度或计算二阶导数的算法不同,我们的方法只需运行学习过程两次,并通过局部元可塑性规则对比两次学习结果,从而获得元梯度。 在第二部分中,我们研究了如何通过模块化架构(modular architectures)的元学习来捕获任务族的可组合结构。我们从理论上刻画了超网络(hypernetworks,即即时生成另一神经网络权重以解决特定任务的神经网络)在何种条件下能够保证组合泛化。随后,我们通过一系列实验验证了这些条件,结果表明:在满足条件时,模块化架构而非单体式架构能够学到在组合泛化上成功的策略。 在第三部分中,我们研究了在Transformer中进行的元学习,其将可组合任务作为序列在上下文中处理。我们形式化地建立了**多头注意力机制(multi-head attention)**与超网络之间的联系。这一联系表明,Transformer 可能能够通过隐式超网络的潜在编码(latent code)来重用并重新组合操作。我们在两个抽象推理任务中实验性地验证了这一假设,发现了一个功能上具有结构化的潜在编码,它能够预测神经网络在未见过的任务组合上所使用的子任务。 综上所述,我们的研究结果揭示了神经网络具备元学习和组合泛化的潜能。最后,我们提出了未来值得探索的一些研究问题,以期在机器学习和神经科学快速发展的背景下进一步加深对神经网络的理解。
FM 3-01是美陆军专用的防空反导(AMD)条令出版物,阐述了AMD原则与准则。它描述了防空炮兵(ADA)——陆军专职AMD组成部分及其组织如何准备与实施作战行动。该手册阐释了AMD部队如何支持联合作战与陆军多域作战,涵盖进攻与防御、维稳行动以及民事当局防务支持任务。它讨论了战略、战役和战术层级的战争行动,并从AMD对陆军作战(如FM 3-0所述)及联合防空使命(如JP 3-01所述)的贡献角度定义了AMD行动。FM 3-01为作战部队与机构部队中各级指挥官、参谋、领导及训练人员提供条令指导,并是美国陆军防空炮兵学校课程开发的基础。本手册主要面向ADA领域及陆军/联合部队领导与参谋人员。其他军种与联合组织可通过本手册深入了解陆军AMD作战。
美国防部指令5100.01要求陆军“实施防空反导以支持联合战役并协助夺取空中优势”。FM 3-01描述了ADA——陆军专职AMD组成部分——在规划、协调与执行AMD行动以支持联合及多域作战中的贡献。手册也涉及多国AMD行动,但多数讨论仍指向联合与陆军AMD。防空反导是指为摧毁、压制或削弱敌方空中与弹道导弹威胁对友军及资产效能的直接(主动与被动)防御行动(JP 3-01),包括可能在地面、空中、海上、网络空间与太空采取的行动。AMD是防御性防空体系击败空中与导弹威胁的关键要素。AMD行动通常与整体防空框架内的其他进攻性与防御性防空使命相结合。尽管本手册涉及进攻性防空与被动AMD方面,其重点仍在于主动AMD战术与程序。ADA部队的存在旨在威慑敌方不良行动,击垮其运用空中力量的意志,并在空中摧毁对方。ADA部队由中高空防空(HIMAD)系统(如“爱国者”与“末段高空区域防御系统”(THAAD))以及近程防空(SHORAD)系统(如“机动近程防空系统”(M-SHORAD)、“复仇者”、“哨兵”及“陆基密集阵武器系统”(LPWS))组成。部署的ADA部队通常编组为ADA特遣部队或按任务编组的炮兵连,配备适当数量与组合的能力以满足任务需求。FM 3-01针对当前作战环境,该环境下演进中的空中与导弹威胁将对陆军及联合部队在所有领域构成挑战。在此环境中,ADA部队必须适应并准备在高度竞争的空中领域实施大规模作战行动。FM 3-01为ADA部队提供应对未来冲突的条令方法,阐释了ADA梯队如何支持陆军部队作战的三个阶段:武装冲突以下的竞争、危机与武装冲突。FM 3-01经过重组以提供火力条令的通用方法,并使AMD与火力作战职能保持一致。FM 3-01描述了ADA部队在现行行动中支援陆军机动部队的运用以及与联合和多国AMD伙伴的协同作用。所述系统能力为2025财年前列装部队的型号。引入的关键新能力包括“一体化防空反导作战指挥系统”(IBCS)与M-SHORAD系统。AMD作战逻辑图见导言页xii的附图,该图基本遵循FM 3-0提出的逻辑框架,但从AMD视角展示内容。
FM 3-01包含六章与三个附录。
● 第一章概述陆军AMD,全章提供大量术语定义与扩展解释以促进对适用于所有ADA梯队的AMD行动与语言的理解。
● 第二章描述陆军AMD系统,涉及ADA领导、指挥所与作战中心、传感器与武器系统及支撑网络,并介绍那些指挥、控制或影响ADA部队作战的联合实体。
● 第三章从AMD角度描述陆军作战流程,讨论ADA如何在计划、准备、执行与评估阶段全程支持该流程,重点在于计划制定。
● 第四章说明ADA部队如何执行AMD行动以支持更高司令部的AMD方案与受援指挥官的作战概念,讨论聚焦准备与执行。
● 第五章阐述武装冲突以下竞争与危机期间ADA的影响与贡献。
● 第六章说明ADA对大规模作战行动的支持贡献,涉及敌方反介入/区域拒止活动及美军在部署/进入、防御、进攻与维稳行动中的行动。
● 附录A提供作战计划/命令附件I(防空反导)的示例。
● 附录B提供AMD执行矩阵示例及其作为同步AMD任务的决策支持工具的用法,该矩阵支持ADA指挥官制定任务及相关目的。
● 附录C描述陆军与联合作战部队面临的空中与导弹威胁,并提供用于分析威胁能力的问题集。
尽管 直接偏好优化(Direct Preference Optimization, DPO) 在对齐大语言模型(LLMs)方面取得了良好效果,但 奖励劫持(reward hacking) 仍是一个关键挑战。当 LLM 过度降低被拒绝生成的概率以追求高奖励时,却未真正实现预期目标,从而导致生成结果 冗长、缺乏多样性,并引发 知识灾难性遗忘。
我们将这一问题的根本原因归结为 参数空间中的神经元坍缩(neuron collapse)所导致的表征冗余。为此,我们提出了一种新颖的 权重旋转偏好优化(Weights-Rotated Preference Optimization, RoPO) 算法:其设计在 输出层 延续了 DPO 中的 KL 散度约束,以隐式限制 logits 的偏移;同时在 中间隐含层状态 上引入 多粒度正交矩阵微调 的显式约束。该机制有效防止策略模型过度偏离参考模型,从而保留预训练与监督微调阶段所获得的知识与表达能力。
在实验中,RoPO 在 AlpacaEval 2 上带来了最高 0.5 分 的提升,并在 MT-Bench 上以仅 0.015% 的可训练参数 超越最佳基线 1.9 至 4.0 分,充分验证了其在缓解 DPO 奖励劫持问题上的有效性。
本篇报告主要针对海内外模型发展、探究模型能力与应用的进展和边界。我们认为当前海外模型呈现差异化发展,企业调用考虑性价比。当前OpenAI在技术路径上相对领先,聚焦强化推理与专业领域能力,而谷歌在端到端原生多模态领先,Anthropic则强调实用性、编程场景领先。从模型API份额跟踪分析,谷歌与Anthropic系列模型份额优势较高,主要由于比较相似上下文输入的模型调用价格,二者相比OpenAI有明显优势。国内模型方向,我们认为当前各家模型尚未拉开明显技术差距,需要观察模型在特定场景的差异化能力。 伴随模型能力不断提升,我们发现兴趣推荐成为AI赋能最明显的场景,主要应用包括广告和游戏行业。兴趣推荐核心通过大模型,增加对于推荐对象的理解,比如AI对广告的推荐作用主要体现在通过多模态提升对内容的理解,进而提升用户点击率、观看广告时长,拉动广告价格和广告位增长。本文详细分析Meta、Reddit、腾讯和快手广告当前在AI技术应用上的进展。此外,游戏也是兴趣推荐重要的场景。海外AIGC游戏平台Roblox,通过AI升级推荐算法,让更多新游戏获得曝光,25Q1平台Top100游戏中有24款是过去一年内推出的,与24Q1相比TOP15游戏推出更多内容更新;由于更多新游戏获得曝光和竞争推荐,平台11-50名的游戏流水同比增长超过1倍,占总流水增量的40%。 GPT3.5发布以来近两年,伴随模型能力不断提升,模型开始出现与应用在场景上的竞争。本文通过分析五个典型案例,探讨不同场景下模型与应用企业的竞合关系: 情景一:大模型直击原有产品痛点,新增AI原生竞争对手 情景二:大模型加速原有产品功能开发,同时创新AI原生产品 情景三:AI产品与传统业务收入存在此消彼长相互替代关系 情景四:AI或颠覆原有需求流量入口 情景五:AI在编程、客服等场景降本显著,企业人均产出持续提升
“条条大路通罗马。”
本书揭示并研究了几乎所有现代(人工)智能实践背后的一个共同且基本的问题:如何在高维空间中有效且高效地学习数据的低维分布,并将其转化为一种紧凑而结构化的表征?对于任何智能系统——无论是自然的还是人工的——这样的表征通常都可以视为从外部世界感知到的数据中学习到的 记忆或知识。 本教材旨在为高年级本科生和初入学的研究生系统介绍学习(深度)数据分布表征的数学与计算原理。其主要先修课程包括本科层次的 线性代数、概率/统计和优化。如果读者对 信号处理(特别是稀疏表示与压缩感知)、信息论和反馈控制有一定了解,将有助于更深入地理解本书内容。 编写本书的主要动机在于,近年来作者及其众多同仁在这一领域取得了巨大的进展,致力于建立一种 有原则且严格的框架 来理解深度神经网络,乃至更广义上的智能。本书倡导的演绎方法论,与当前人工智能实践中占主导的 归纳性、试错式方法 形成鲜明对比,并高度互补。对于如此强大的 AI 模型与系统,人们的理解不足导致社会上愈演愈烈的炒作与担忧。我们相信,现在比以往任何时候都更需要认真尝试建立一种有原则的方法来理解智能。本书的宏大目标之一,就是提供坚实的理论与实验证据,表明如今完全可能像研究科学与数学课题一样研究智能。因此,读者也可以将本书视为发展 “智能的数学理论(Mathematical Theory of Intelligence)” 的初次尝试。
在技术层面,本书提出的理论框架有助于弥合长期存在的一大鸿沟:一方面是经典的数据结构建模方法,主要依赖于几何、代数与概率的解析模型(如子空间、高斯分布、方程等);另一方面是“现代”的经验驱动、非参数化建模方法(如深度网络)。事实上,如果认识到它们都试图建模和学习数据分布中的低维结构,这两条看似分离的路线就能够统一,甚至显得自然。从这一角度来看,即便是许多看似毫不相关、在不同领域和不同时期独立发展起来的计算技术,现在也能在一个共同的计算框架下得到更好的理解,并可能从此一起研究。如本书所示,这些技术包括但不限于:信息论与编码理论中的有损压缩编解码、信号处理与机器学习中的扩散与去噪、以及 约束优化中的增广拉格朗日等连续方法。
我们相信,本书提出的统一概念与计算框架将对那些真正希望澄清关于深度神经网络和(人工)智能的神秘与误解的读者极具价值。此外,该框架还旨在为读者提供指导原则,以便在未来开发出更强大、更“真正智能”的系统。 更具体而言,除了总体介绍(第一章)之外,本书的主要技术内容将组织为六个紧密相关的主题(章节): 1. 经典模型:从主成分分析(PCA)、独立成分分析(ICA)、字典学习(DL)等最基本的模型入手。这些模型假设目标低维分布具有线性和独立结构。通过这些在信号处理和压缩感知中得到充分研究的理想化模型,我们引入如何学习低维分布的最基本思想。 1. 压缩作为普遍原理:为将经典模型及其解法推广到更一般的低维分布,我们引入学习此类分布的一个普适计算原理:压缩。事实表明,数据压缩为各种看似不同的经典与现代分布/表征学习方法提供了统一视角,包括 降维、熵最小化、去噪的分数匹配、带失真率的有损压缩 等。 1. 深度神经网络的解释:在这一统一框架下,现代深度神经网络(如 ResNet、CNN、Transformer)都可以在数学上解释为“展开的优化算法”,通过迭代不断改进压缩与表征,即减少编码长度/速率或增加信息量。该框架不仅能解释迄今为止经验驱动的深度网络架构,还能引导出更简单、更高效的新架构。 1. 自动编码与闭环转录框架:为了保证学到的分布表征正确且一致,必须引入由编码器和解码器组成的自编码架构。为使学习系统完全自动与持续改进,我们引入一个强大的 闭环转录框架,使自编码系统能通过编码器与解码器之间的极小极大博弈自我校正,从而自我提升。 1. 作为先验的表征与贝叶斯推理:我们还将研究如何利用学到的数据分布与表征,作为强大的先验或约束,来进行贝叶斯推理,从而促进现代人工智能实践中的几乎所有任务与设置,包括条件估计、补全与高维真实数据(如图像和文本)的生成。 1. 从理论到应用:最后,为了将理论与实践相结合,我们将逐步展示如何在大规模数据集(图像与文本)上有效高效地学习低维分布的深度表征,并将其应用于 图像分类、图像补全、图像分割、图像生成 及文本数据的类似任务。
总而言之,本书的技术内容建立了 经典解析方法与现代计算方法、简单参数化模型与深度非参数化模型、多样的归纳实践与统一的演绎框架 之间的紧密联系。我们将揭示,许多看似无关甚至相互竞争的方法,尽管在不同领域和不同时期独立发展,但它们实际上都在追求同一个目标:发现并利用高维数据中固有的低维分布。 因此,本书将带领读者经历一段完整的旅程:从理论建模,到数学验证,再到计算实现,直至实际应用。 https://ma-lab-berkeley.github.io/deep-representation-learning-book/
为满足国防领域对高效数据分析和决策日益增长的需求,美海军正优先发展能够处理多源数据并提出行动方案的人工智能/机器学习(AI/ML)系统。历史上,许多此类系统因技术问题、缺乏可用性或任务相关性而失败。人机协作研究旨在创建能够更好融入一线操作员工作流程的AI系统。美国国家科学院、工程院和医学院(NASEM)近期的一份报告提出了57项研究目标,但美国海军需要一组更聚焦的优先事项。在太平洋海军信息战中心举办了一场由多领域23位专家参与的研讨会,最终确定了跨越不同时间范围的五项关键研究重点。本专题讨论将分析该研讨会的成果,重点探讨会前存在的关键问题及会后产生的新问题。参与专家来自政府、学术界和工业界,为人机协作的重大问题提供了独特视角。
美国海军与美国武装力量其他军种同样认识到AI有潜力在几乎所有任务环节协助作战人员。能够接收多源数据、分析识别模式并推荐行动方案的系统,可为棘手问题生成新见解和创造性解决方案。
人机协作研究被视为美国海军舰队采用AI的关键推动因素,因为以往许多技术因存在技术、可用性与可维护性挑战而采纳过慢(或根本未被采纳)。尽管美国国家科学院近期发布了详细列出57项研究目标的报告,以更好地协调、支持和评估人机团队,但美国海军仍希望进一步聚焦范围,将这些研究方向缩减至三大目标:
(1)确定具体工作单元以支持提案、资金申请与执行;
(2)根据海军需求将已识别的工作单元归类为近期、中期与远期研究重点;
(3)进一步结合研究可行性与难度,将这些重点与对应时间框架对齐。
为支持这些目标,太平洋海军信息战中心(NIWC Pacific)举办了一场研讨会,来自学术界、工业界和政府的23位人因工程与计算机科学家参会,另有三名现役水兵作为实战领域的海军主题专家(SMEs)。研讨会成果最终提炼为五项跨越近期、中期与远期投资时间范围的研究重点。两项近期重点为:(1)开发人机协作效能度量标准,(2)构建人机协作测试平台。一项中期重点——人机团队任务分配,是在研讨会讨论中形成的,其内涵超越功能分配,旨在探索如何最优分配任务。两项已识别的远期重点聚焦于(1)开发AI对人类队友的感知能力,(2)建立人机团队开发团队(即采用多学科方法构建成功的人机团队)。这些目标因技术复杂性及对作战人员组织结构的挑战而被归为远期重点。研究优先级如何划分存在不确定性,包括可能存在竞争性策略这一事实,推动了与会者之间的深入讨论。主要讨论点强调了需进一步开展战略思考和更精细化优先级划分的领域,例如如何推进测试平台开发和人机协作度量标准。解决这两项近期重点将推动许多人机协作研究活动,但首先需明确评估内容及原因。本次专题讨论将承接研讨会未尽议题,并邀请会议参与者贡献观点。
组合式视觉推理 已成为多模态人工智能的关键前沿研究方向,其目标是赋予机器类人的能力:能够分解视觉场景、落实中间概念,并执行多步逻辑推理。尽管早期综述主要聚焦于单一的视觉-语言模型或一般性的多模态推理,但针对快速扩展的组合式视觉推理文献,目前仍缺乏专门的系统性总结。本文填补了这一空白,全面回顾了 2023 至 2025 年间 260 余篇来自顶级会议(CVPR、ICCV、NeurIPS、ICML、ACL 等)的论文。 我们首先形式化核心定义,并说明组合式方法在 认知对齐、语义保真性、鲁棒性、可解释性和数据效率 方面的优势。接着,我们梳理了一个五阶段范式转变:从基于提示增强的语言中心管道,到工具增强的 LLMs、工具增强的 VLMs,再到新近兴起的 链式思维(Chain-of-Thought)推理 与 统一的智能体式 VLMs,并重点分析它们的架构设计、优势与局限。 随后,我们整理了 60 余个用于组合式视觉推理的基准与评测指标,这些基准从 概念落地准确性、推理链忠实性、高分辨率感知 等多个维度对模型进行考察。在此基础上,我们提炼出关键见解,并指出尚待解决的开放性挑战,例如:基于 LLM 的推理局限、幻觉问题、对演绎推理的偏向、可扩展监督、工具集成以及基准局限性。最后,我们展望了未来研究方向,包括 世界模型的融合、人机协作推理以及更丰富的评测协议。 通过提供一个统一的分类体系、历史脉络图谱与批判性展望,本文旨在成为该领域的基础性参考,并激发下一代组合式视觉推理研究。
人类具备一种非凡的能力,可以解释高维、未压缩的视觉输入,并抽象出其潜在结构,从而能够高效地将底层概念操作为符号化表征 [1, 2]。因此,人类能够轻而易举地在凌乱的房间中找到目标物体,判断一个杯子是否能放进抽屉,或预测一堆物体可能倒下的方向。这种认知能力被称为 视觉推理(visual reasoning),被广泛认为是人类智能的集中体现,构成了 概念形成、世界理解与环境交互 的基础 [2–5]。 在追求类人智能的过程中,越来越多的研究试图在机器中复现视觉推理能力 [1, 6–8]。早期方法,尤其是在大语言模型(LLMs)的推动下,催生了 单体(monolithic)黑箱架构,它们直接将视觉和文本输入映射为答案 [9–13]。这类系统在通用多模态理解中取得了令人印象深刻的成果 [14–16],并逐渐被应用于现实场景。例如,在机器人学中,视觉推理通过评估可供性和空间关系,实现无碰撞的物体操作;在医学影像中,它帮助从复杂扫描中检测解剖结构或异常;在自动驾驶或无人机中,它支持动态场景理解,例如预测行人意图或在复杂环境中导航 [9, 17–22]。 然而,尽管单体方法在通用多模态理解上表现出色,但在面对人类视觉推理固有的组合性和多步特征时,仍存在显著挑战 [13, 23–28]。具体而言,我们识别出以下关键局限: * 挑战 1:严重依赖数据集偏差。 单体模型往往并未进行扎实的推理,而是利用虚假的相关性与语言先验生成看似合理但错误的答案 [23, 24],从而削弱了它们在复杂或新颖场景中的泛化能力。 * 挑战 2:随着推理复杂性增加,性能收益递减。 简单地扩大数据和算力,并不能在任务需要多跳推理、空间理解或精确落地(grounding)时带来成比例的提升 [29–33]。 * 挑战 3:不符合类人的组合推理方式。 人类将视觉场景解释为由对象、属性和关系构成的结构化组合 [5, 34, 35],并能通过重组已知视觉元素和概念灵活地产生新推理 [4, 36–39]。相比之下,单体模型倾向于整体性地处理输入,缺乏显式分解与关系推理的机制。
这些局限凸显了开发 模块化、可解释、组合对齐 的视觉推理方法的必要性。受认知洞见和单体模型局限的共同驱动,研究者们开始探索一种新范式:组合式视觉推理(Compositional Visual Reasoning, CVR)。该范式显式引入由视觉感知引导的结构化推理步骤。其核心——也是本文综述的重点——在于发展能够构建显式场景表征,并通过逐步推理完成任务的方法。这类方法通过将复杂任务分解为由感知驱动的推理步骤,使中间思维过程可见,而不是依赖于单体的端到端映射 [4, 29](如图 1 所示)。 自 2023 年以来,组合式视觉推理发展迅速,已成为视觉智能研究的核心范式。然而,其发展轨迹、方法论基础与未来方向仍缺乏系统性审视。现有视觉推理综述主要聚焦于传统或单体方法 [40–42],因此未能覆盖组合式视觉推理这一迅速崛起的方向。同时,关于多模态大语言模型与推理的综述往往强调 通用推理 [31, 43]、神经符号框架 [44]、抽象模式识别 [45] 或 基于智能体的架构 [31, 46]。虽然这些研究与组合式视觉推理相关,涵盖了规划、感知或符号抽象等组成部分,但它们并未对组合式视觉推理作为一个独立且快速发展的范式进行深入或系统的分析。如表 1 所示,该领域仍然缺乏一份有针对性的、全面的综述。 这一空白尤为紧迫,因为组合式视觉推理正在快速积蓄势能,其发展日益依赖于 LLM 引导的推理机制、工具集成的工作流,以及具备多步推理能力的视觉-语言模型(VLMs)。这些技术正成为视觉问答(VQA)、视觉定位(visual grounding)等任务的基础,在这些任务中,推理不再被视为单步黑箱预测。 为此,本文综述系统性地回顾了强调在生成答案之前包含显式中间“思维”步骤的组合式视觉推理方法。我们特别关注 大模型增强方法在 2D 图像模态上的应用,不涉及基于视频或 3D 的推理框架。综述时间跨度为 2023 年 1 月至 2025 年 5 月,涵盖 NeurIPS、ICML、ICLR、ACL、EMNLP、AAAI、CVPR、ICCV、ECCV 等顶级会议的论文,以及高被引的 arXiv 预印本。 在本文中,我们聚焦于组合式视觉推理的最新演进,并围绕四个核心研究问题展开: 1. 为什么组合式视觉推理是必要的? 1. 组合式视觉推理的主要架构与范式是什么? 1. 现有的基准与评测指标有哪些? 1. 当前的局限与瓶颈是什么?
接下来的章节安排如下:第 2 节介绍核心定义,包括视觉推理、单体视觉推理与组合式视觉推理;第 3 节从多个角度分析组合式视觉推理的优势,包括与人类推理的认知对齐、语义与关系理解、泛化与鲁棒性、透明性与可解释性、模块化复用、减轻语言偏差与幻觉、以及降低数据需求所带来的效率提升;第 4 节概述一个多阶段路线图,展示组合式视觉推理从基于提示增强的 LLM 中心方法,演进到统一的智能体式 VLM 架构的发展轨迹;第 5 节回顾现有基准与评测方法;最后,第 6 节总结关键挑战,并讨论未来 CVR 系统的研究方向。
战术边缘处理与云计算技术正以前所未有的方式重塑情报监视侦察(ISR)行动与战场决策。战术边缘计算不仅使数据分析与军事响应更协同高效,更在关键环节挽救生命。尽管该技术在大众视野中鲜受关注,军事领域已公认其为最具创新性与前瞻性的数据采集分析系统。其与人工智能及增强现实技术结合后,实时应用场景近乎无限。
战术边缘计算在现代军事战略与决策中的核心地位日益凸显,应用规模呈指数级增长。它深刻变革指挥员态势评估与资源部署模式。本文将深入解析战术边缘计算原理及应用,系统阐述其战略价值及在21世纪军事体系中的关键作用,并以FlySight公司"OPENSIGHT任务控制台"及端到端增强现实解决方案为例,探讨边缘处理技术的未来演进路径。
边缘计算技术指部署于数据生成源头近端的计算资源与处理能力,常位于偏远或敌对区域。该技术实质位于作战区域(陆/海/空战场)的"战术锋线",需具备紧凑性、高算力与自适应特性,赋能操作员实时关键决策。
战场实时分析无人机、传感器等设备数据,并即时比对云端存储信息,可赋予操作员显著战术优势。作为"战场物联网"核心组件,它构建高速信息通道实现分析协作与行动执行。其"边缘"部署特性确保更快速、高效、即时的实施能力。
边缘处理与传统云系统的核心区别在于数据处理位置与方式:
• 边缘处理在临近数据源(无人机/传感器等)的"网络边缘"完成采集分析
• 云计算需将数据传输至远离源头的中枢服务器存储后处理
边缘计算是战术环境的理想伙伴。针对偏远、敌对及资源受限战场的特性,该技术实现数据源头解析。依托无人机载传感器与摄像头的实时决策能力,使操作员摆脱对远程服务器或云连接的依赖——这在稳定连接无法保障时尤为关键。
战术边缘计算特别适配自主系统,赋能其分析实时数据流并瞬时识别威胁目标。尽管需保留人工操作员最终决策节点(如所有AI系统),但大幅降低系统与指挥中枢的持续通信需求。
低时延响应:系统在作战区域边缘运行(非远距分离位置),加速数据处理以支撑毫秒级军事决策。
流程精简化:实时优化作战流程,提升资源分配效能,减少前线操作员与指挥基地的冗长通信。
安全强化:减少前后方数据往返可增强安全性与数据主权,敏感信息本地化处理降低外部黑客攻击风险。
韧性保障:在断联环境(GPS拒止/通信中断)中持续运作,因不依赖长距连接。
信息传输距离越短、访问节点越少,任务关键数据的安全利用与决策制定越高效。降低数据时延直接提升响应速度与决策效率。
战术边缘云计算除邻近战场优势外,更支持通过云连接整合多源数据(卫星/地面传感器/侦察无人机),构建分层分析体系,赋能操作员更精准深入的战场认知。
FlySight创新性OPENSIGHT任务控制台等端到端解决方案(如目标捕获系统、北约STANAG 4607地面目标追踪增强系统),通过AI辅助编程将实时采集数据与既有信息融合为协同战略路线图。
自主无人机在战场日益普及。在保留人工操作员决策节点的同时,无人机可基于机器学习与实时位置数据更新,动态调整监视与目标捕获协议,显著提升作战效能。
多接入边缘计算的有限可控特性及数据近源处理机制,提供更高阶网络安全防护。敏感信息传输距离越长、分析验证往返越频繁,遭受外部攻击风险越大。数据近源处理消除链路薄弱环节,保障信息安全。
但需注意:当边缘计算系统连接外部云源时,技术闭环系统转为开放架构,数据泄露风险骤增。因此战术边缘云计算需在严格安全框架内实施。使用OPENSIGHT等任务控制台访问补充数据,是保障边缘计算所获关键数据安全的最可靠途径之一。
尽管已是尖端系统,战术边缘计算在作战应用领域仍有广阔进化空间。
技术持续进步将带来作战效能提升,核心在于系统集成至用户友好型硬件(如直升机驾驶舱等狭小空间仍可直观操作)。依托增强现实基础与深度机器学习能力,OPENSIGHT平台展示系统如何为军事行动、搜救(SAR)及监视任务实现协同定制——通过无缝安全连接外部数据源,突破近域信息局限。
参考来源:flysight