会员服务 ·

专业可信的知识分发

高级搜索

无人机

无人机对士兵的心理影响

专知会员服务

5+阅读 · 10月18日

新型军用战斗机无人机（MFUAV’s）| 2025最新80页

专知会员服务

7+阅读 · 10月18日

基于深度学习模型的图像军事目标检测

专知会员服务

4+阅读 · 10月18日

智能体

专知会员服务

8+阅读 · 10月17日

智能体化多模态大语言模型综述

专知会员服务

24+阅读 · 10月14日

LLM/智能体作为数据分析师：综述

专知会员服务

28+阅读 · 9月30日

AI与军事

关注 1278

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

国防领域人工智能走向何方？

乌克兰太空研究（2022-2024年） | 176页

无人机对士兵的心理影响

新型军用战斗机无人机（MFUAV’s）| 2025最新80页

基于深度学习模型的图像军事目标检测

大语言模型 · 人工智能 · AI for Science (人工智能赋能科学研究) ·

10 月 4 日

LLMS4ALL：大语言模型在各学科科研与应用中的综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

前沿的人工智能（AI）技术不断重塑我们对世界的认知。例如，基于大语言模型（LLMs）的应用（如 ChatGPT）已经展现出在广泛主题上生成类人对话的能力。由于其在多种语言相关任务（如开放域问答、翻译和文档摘要）上取得的卓越表现，人们可以预见 LLMs 在更广泛的现实应用中（如客户服务、教育与无障碍支持以及科学发现）将带来的深远影响。受到这些成功的启发，本文将对最新的大语言模型及其在各学术学科中的融合进行综述，涵盖：(1) 人文、文学与法律（如历史、哲学、政治学、艺术与建筑、法律），(2) 经济与商业（如金融、经济学、会计、市场营销），以及 (3) 科学与工程（如数学、物理与机械工程、化学与化学工程、生命科学与生物工程、地球科学与土木工程、计算机科学与电子工程）。通过融汇人文与技术，本文将探讨 LLMs 如何塑造这些领域的研究与实践，并进一步讨论在生成式 AI 时代所面临的关键局限、开放挑战与未来方向。对 LLMs 在不同学科中的应用综述——以及由此得出的关键观察与洞见——能够为有意利用 LLMs 推动其工作在多样化现实场景中发展的研究人员和实践者提供参考。

1 引言

当今，前沿的人工智能（AI）技术正在不断重塑我们对世界的认知。例如，基于生成式预训练 Transformer（GPT）架构的基础语言模型 ChatGPT [1]，已经展现出在广泛主题上生成类人对话的能力，使其成为增长最快的应用程序（即在上线后的前两个月内用户数突破 1 亿）[2]。尽管其在鲁棒性与真实性方面仍存在局限，但凭借在多种语言相关任务（如开放域问答、翻译和文档摘要）上的卓越表现，ChatGPT 展示出在客户服务、个人助理以及医学诊断等多样化场景中的潜在应用价值。除了自然语言处理（NLP）领域的 ChatGPT 等模型外，计算机视觉（CV）中的预训练基础模型（如 Florence/Florence-2 [3] 与 Qwen2.5-VL）也在目标检测、图像分割、视频推理等多项视觉任务上取得了最先进水平，使其在面部识别、医学图像分析以及自动驾驶等应用中展现出显著价值。这种跨模态的融合进一步凸显了大语言模型（LLMs）的关键作用——它们不仅为表征学习和推理提供了统一框架，也成为嵌入其他模态的核心支柱，从而在 AI 驱动的科研与应用生态系统中居于中心地位。受这些最新进展的启发，本文将综述前沿的大语言模型及其在多个学术学科中的应用整合，涵盖：(1) 人文、文学与法律（历史、哲学、政治学、艺术与建筑、法律），(2) 经济与商业（金融、经济学、会计、市场营销），以及 (3) 科学与工程（数学、物理与机械工程、化学与化学工程、生命科学与生物工程、地球科学与土木工程、计算机科学与电子工程）。作为人文探索与技术发展的交汇点，本文旨在探讨 LLMs 如何重塑各领域的研究工作流与专业实践，并进一步梳理其所面临的主要局限、未解挑战以及在生成式 AI 时代的未来发展方向。通过综合跨学科的应用并提炼关键洞见，本综述期望为希望利用 LLMs 推动现实应用研究与实践的学者与从业者提供指导。基于近期突破，本文在第 2 章中首先介绍 LLM 的基本概念与评估方法。我们从精确定义与简要发展历史入手，进而通过概览和重点剖析主流模型家族——包括 GPT 系列、OpenAI 推理模型、Claude 3、Gemini 2、Grok、Llama 3、Qwen 2 和 DeepSeek——来绘制前沿图谱，突出其设计选择与功能特点。随后，我们讨论评估维度：涵盖核心任务类型、代表性基准数据集与常用方法，并给出性能综述，以期为理解模型表现与方法选择提供背景、比较图景与实践指南。在三个学科群组（人文、文学与法律；经济与商业；科学与工程）中，我们首先通过综述其主要研究任务与传统方法来引入学科背景，强调其关键贡献与重要影响。接着，我们识别可由 AI 尤其是 LLMs 辅助解决的共性研究挑战，并提出一个任务分类体系，将学科研究与 LLMs 相结合：既保持学科相关性，又在算法层面确保一致性，以支持模型开发、基准评测与比较分析。在每个类别中，我们回顾现有的 LLM 驱动的研究与应用，探讨其局限，并展望未来研究方向。最后，我们总结代表性基准与关键讨论。在第 3 章中，我们调研 LLMs 如何正在改变人文学科与法律领域，从证据到实践展开。在历史学中，我们涵盖叙事生成与分析、定量与科学方法（如历史心理反应的模拟），以及跨学科研究，并结合基准讨论。在哲学中，我们回顾规范与解释性应用（如辩论/对话生成）、分析与逻辑应用（如符号落地诊断），以及跨学科研究。政治学部分，我们考察政策洞察的文本分析、意见模拟与预测、政治信息生成与框架化，并附带基准与反思。艺术与建筑部分，我们综述模型辅助的视觉、文学、表演艺术创作，以及基于 LLM 的建筑设计与分析，并总结评估与经验。最后，在法律部分，我们覆盖法律问答、合同与文书撰写、法律文档理解与案例分析、判决预测，并附以基准与讨论。在第 4 章中，我们综述 LLMs 在经济与商业中的应用。在金融领域，我们涵盖交易与投资研究、公司金融、市场分析、金融中介与风险管理、可持续金融、金融科技及相关基准。在经济学中，我们涉及行为与实验研究、宏观经济模拟与基于智能体的建模、博弈论与战略互动、经济推理与知识表征，并配套评估。在会计部分，我们审视审计、财务与管理会计、税务，并总结基准。在市场营销部分，我们涵盖消费者洞察与行为分析、内容生成与活动设计、市场情报与趋势分析，同样附带性能基准。在第 5 章中，我们系统回顾 LLMs 在科学与工程中的应用。数学部分包括定理证明辅助、理论探索与模式识别、数学教育与相关基准。物理与机械工程部分涵盖文档任务、设计构思与参数化制图、仿真支持与建模接口、多模态实验解读、交互式推理，并附以评估与讨论。化学与化学工程部分包括分子结构与反应推理、性质预测、材料优化、实验映射、分子设计、反应数据组织，并比较不同基准。生命科学与生物工程部分涵盖基因组序列分析、临床结构化数据整合、生物医学推理与理解、混合结果预测，并特别关注验证标准。地球科学与土木工程部分包括地理空间与环境数据任务、仿真与物理建模、文档处理、监测与预测性维护、设计与规划，并总结基准。最后，在计算机科学与电子工程部分，我们综述代码生成与调试、大规模代码库分析、硬件描述语言生成、功能验证、高层综合，并附以专用基准与挑战讨论。在第 6 章中，我们以“把握当下，塑造未来”为题进行总结，综合跨领域证据，概述新兴前沿，归纳人文学科与法律、经济与商业、科学与工程三个领域的共性机遇、局限与范式，并提出未来路线：包括基于模式对齐的多模态融合与可溯源归因、受限条件下的工具增强计算、规则约束的可复现智能体仿真、时间—因果适应、带不确定性控制的决策支持、人机协作监督与治理、以及面向教育的能力建设与安全嵌入——从而提供一个可实践、可审计、可扩展的跨学科应用蓝图。综上，本文从基础与评估到跨学科应用，系统勾勒出 LLM 研究与应用的全景，展示了当下的有效方法、尚存的脆弱环节以及进展的衡量方式。读者可以获得通用的任务分类体系、模型与工具选择的指导、严谨评估与基准构建的方法，以及在效用、安全、合规与人类监督之间取得平衡的实践模式。尽管本文不可能穷尽所有视角，且某些观点仍有待讨论，但随着 AI 技术尤其是生成式 AI 的快速发展，相关学科必将持续演进。作为初步努力，本综述希望帮助读者识别有前景的问题表述、设计合理的评估方案、预估潜在影响、并预判可能的失败模式。我们期望该综合性工作能够为研究人员、从业者与政策制定者提供借鉴，以负责任地把握当下，并塑造一个 LLMs 能够在广泛学科中实现可靠、可审计与真正有用能力的未来。

成为VIP会员查看完整内容

AI与军事 · 人机协同 · 多智能体 · 博士论文 ·

9 月 29 日

《人-智能体知识融合：与可解释、可讲述人工智能进行协同意义建构》372页

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

使用人工智能驱动的机器智能体来增强人类认知活动展现出广阔的潜力，新的云服务也在定期发布。然而，在传统应用中快速使用这些服务需要超出普通用户技术水平的技术技能。开发者需构建或扩展应用程序以利用这些服务，这常常延迟了这些服务向用户提供的可用性。聊天机器人式的对话界面试图解决这一问题，但更倾向于简单的交互。为支持更丰富的解决方案，提出通过人与机器智能体共同构建任务相关信息来实现知识共享。具体来说，是支持多种模态和一系列具体程度的共享知识——从快速获取的流动信息到更正式定义的知识。此外，用户应能调用相关的云服务，并快速建立与这些服务相称的信任水平。通过共同构建来融合知识，可以超越当前机器智能体集成中常见的简单对话交互或定制应用程序，实现更快、更丰富的协作机制。

本文引入“人-智能体知识融合”（HAKF）作为一个概念框架，以支持多模态知识的共同构建，并支持人-智能体团队在特定任务和时间受限的问题解决活动中进行协作。具体而言，HAKF 强调了可解释人工智能对于快速建立信任的必要性，以及可讲述人工智能对于流畅知识交换的必要性。论文定义了一个名为“认知速写”（Cogni-sketch）的 HAKF 开源实例化平台，该平台支持以下实验：（1）由人类主导的、针对开源情报分析的信息觅食、意义建构和故事讲述；（2）来自机器智能体和数据源的信息融合，并与人类分析师协同工作。（1）的结果表明，用户成功完成了任务，并同时推进了多项意义建构活动。（2）的结果，重点展示了机器视觉和物体识别的融合，证明了机器智能体共同构建的知识可供人类用户使用。

通过 HAKF 和“认知速写”，展示了强大而灵活的解决方案的潜力，使得人与机器智能体之间能够开展与任务相关的问题解决活动，范围涵盖从信息收集与组织到意义建构与故事讲述。

第 2 章以文献综述的形式提供了与 HAKF 及其在意义建构中应用相关研究的背景材料，考虑了对人类用户和机器智能体都重要的一般性通信因素。第 3 章引入了 HAKF 的概念，以支持人-智能体团队集体解决问题，并指出了在任何实施中都必须支持的具体方面。同时描述了与军事利益相关者举行的一次设计思考研讨会，以及这如何帮助明确 HAKF 所需的能力。第 4 章概述了作为 HAKF 实例化的实验性“认知速写”平台。本章首先简要评估了现有的相关工具和技术，然后定义了“认知速写”的范围、它如何支持 HAKF 所需的能力以及用于定制和集成机器智能体的各种扩展点。第 5 章重点关注机器智能体及其基于自身处理或分析能力做出与任务相关贡献的能力。这些贡献大体上与可解释性流程的示例相一致，并通过试点评估和一些对话解释来表达，以展示多种行为。第 6 章将重点转向人类用户通过可讲述性流程成功进行意义建构的能力，以及以对人类用户在视觉和认知上有用的形式创建相关材料。与一名情报分析师进行的试点练习为后续正式实验的设计和执行提供了信息，该实验旨在测量 12 名人类参与者的意义建构行为和结果。对试点和实验的结果进行了分析和报告。最后，第 7 章总结了各项贡献，呈现了 HAKF 研究活动的简要时间线，总结了一些额外的示例用例，并提出了未来潜在的扩展和进一步的研究领域。它还强调了大型语言模型技术的最新进展，这些进展高度相关但未在本论文中涵盖，因为它们是在所报告的研究完成之后出现的。论文还有三个附录：附录 A 包含了关于“认知速写”平台的额外细节以及代码、文档和视频演示等资源的链接。附录 B 包含了从第 6.4 章描述的人类意义建构实验中获得的完整数据集，以及对 12 名参与者在实验期间创建的制品的定性评估。附录 C 包含了一些与第 3 章第 3.2 节报告的设计思考研讨会相关的额外有用信息。

成为VIP会员查看完整内容

大语言模型 · 智能体 · 数据分析师 · 结构化数据 · 半结构化数据 ·

9 月 30 日

LLM/智能体作为数据分析师：综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

摘要—— 大语言模型（LLM）与智能体（Agent）在数据分析中的应用（即 LLM/Agent-as-Data-Analyst）已在学术界与工业界展现出显著影响。与传统的基于规则或小模型的方法相比，（具备智能体特性的）LLM 能够支持复杂数据理解、自然语言交互、语义分析功能，以及自主的数据管道编排。技术演进进一步提炼出智能数据分析智能体的五大关键设计目标，即语义感知设计、模态融合集成、自主管道、工具增强工作流，以及开放世界任务支持。从模态视角来看，我们回顾了基于 LLM 的技术在以下方面的应用：（i）结构化数据（如关系数据的表格问答与图数据的 NL2GQL），（ii）半结构化数据（如标记语言理解与半结构化表格建模），（iii）非结构化数据（如图表理解、文档理解、编程语言漏洞检测），以及（iv）异构数据（如数据湖的数据检索与模态对齐）。最后，我们总结了尚存的挑战，并提出若干见解与实践方向，以推动基于 LLM/智能体的数据分析发展。 关键词—— LLM，智能体，数据分析，结构化数据，半结构化数据，非结构化数据，异构数据

1 引言

数据分析（广义地定义为对数据进行检查、转换与建模，以发现有用信息并支持决策的过程）是现代科学研究与商业智能的基石之一 [70, 13, 113, 282]。它覆盖从结构化数据库、半结构化表格到非结构化文档与视频等多种数据模态，并支撑着金融、医疗、工程、社会科学等领域的关键应用 [162, 23, 27]。

1.1 传统数据分析的局限

传统的数据分析流水线虽能有效提取信息与统计模式，但往往需要大量领域知识、繁重的人工特征工程，以及多种专用工具的集成 [244]。随着数据规模、复杂度与异质性不断增长 [130]，这些限制愈发凸显，构成了传统数据分析的内在薄弱环节。 L1：人工式开发。 最耗力的挑战在于传统工作流依赖僵硬的、手工设计的流水线，要求领域专家事先明确各个建模步骤 [286, 287, 280]。在大型企业数据库中，客户、订单、支付、发货、商品等分别以独立数据表存储且各含数十个属性，即便是回答诸如“上个季度高级会员的平均配送时长是多少？”这样看似简单的业务查询，也可能迫使分析人员选择关联表、定位对应属性、处理复杂的多表连接、施加领域约束并统一时间戳字段。对于文档问答，在包含多样元素（如文本块、表格、图表、图像）的长文档中检索相关信息通常需要分析师逐页审阅并概括内容，这一过程高度依赖人力。此类手工流水线不仅构建耗时，而且当数据特性或分析目标变化时难以适配。 L2：硬编码的工具依赖。 现有数据分析系统通常内置一组与特定工作流紧耦合的工具（如可视化看板、统计包或机器学习模块 [5]），这与底层数据类型的复杂性相关。例如，从知识图谱中抽取统计信息并进一步做线性回归建模时，分析人员需先撰写 GQL 查询并调用图数据库内置 API 获取数据，随后再借助机器学习库（如 scikit-learn、PyTorch）开展分析。相对地，3D 模型分析则更依赖领域特定知识与专用系统（如 AutoCAD、PyMOL [4]）。这类分析常受限于这些系统内嵌的功能，要求缺乏编程能力的分析师跨系统集成多个工具才能完成单一任务。异构系统的耦合不仅提高了分析流程的复杂度与开销，也妨碍了可扩展性并使其难以融入更广泛的分析工作流。 L3：同质化的模态支持。 现有系统通常针对特定数据类型进行了优化，其体系结构与查询引擎也面向特定格式而定制。例如，关系型数据库适于结构化数据 [95]，而 MongoDB 等系统则面向 JSON 等半结构化格式 [6]。在分析附带时间戳描述的视频时，分析人员常需手动将帧与相应文档对齐以实现跨模态分析 [158]。这种“专才化”削弱了跨模态异构数据的分析能力，进而提升了分析复杂度、引入错误并限制了洞察的广度与效率。 L4：基于表层格式的分析。 传统方法虽擅长过滤、聚合等操作，但缺乏对数据中语义信息的推理能力。比如在表格分析中，若单元格包含较长文本，SQL 往往只能检索或匹配关键词，而无法理解其语义（如情感、意图、因果关系）[280]。同样地，对于图表或文档等非结构化数据，分析师仍需手动解读与总结以满足分析需求 [69]。缺乏语义理解限制了当前系统的分析深度，也难以支撑超越表层模式、需要复杂知识推理的任务。

1.2 LLM/智能体赋能的数据分析机遇

近来的大语言模型（LLM）与基于 LLM 的智能体带来了缓解上述挑战的新机遇。如图 1 所示，通过自设计的分析流水线、自适应的工具辅助工作流与自然语言交互，LLM 有潜力降低技术门槛、增强可解释性，并加速从多样数据形式中发现可执行洞见。 O1：复杂数据理解。 得益于对潜在模式与上下文依赖的表征能力 [196, 200]，LLM 能够处理并推理关系数据、半结构化表格与非结构化文本等复杂数据。以图数据为例，模型不仅能理解结点与边所承载的语义内容，还能就其底层结构属性（如连通性、社群模式、层级组织）进行推理。这种深度而整体的理解使分析师能够产出融合定量度量与定性细节的更丰富洞见 [18]。 O2：自然语言接口（NL-based）。 基于 LLM 的分析智能体以自然语言为主要交互接口，使用户无需掌握 SQL 等专用查询语言或高级编程技能即可表达分析需求 [130, 115]。这种接口形式既提升了分析便捷性、加快了整体流程，也拓宽了不同用户群体参与数据驱动决策的范围 [202, 69]。 O3：语义算子。 LLM 使能结构解读、内容摘要等语义层操作，尤其适用于结构关系丰富或文本信息密集的数据 [219]。例如，在医疗记录数据库检索中，传统查询可能只返回包含“fever（发热）”一词的文档，而 LLM 驱动的算子还能识别“high temperature（高体温）”“febrile condition（发热状态）”等语义相关表述，从而增强查询的表达力，帮助分析师获得更准确、具备上下文意识的结果 [94, 232]。 O4：自主进化。 LLM 智能体并非静态工具，而是能够通过持续交互与学习来改进表现的自适应系统。鉴于分析需求与数据环境必然随时间演化 [76]，这一能力尤为关键。例如，一个金融分析智能体最初或许专注趋势预测，但在迭代反馈中会扩展到实时检测异常或纳入新兴风险因子。此类自主演化有助于保持系统的先进性，减少对人工重配置的依赖，并持续提供更个性化与高效的分析支持 [19]。

1.3 LLM 赋能数据分析的技术脉络

如图 1 与图 2 所示，鉴于数据格式与应用场景的多样性，我们从两条维度对 LLM 赋能的数据分析进行分类：（1）所支持的数据模态范围（x 轴）：结构化、半结构化、非结构化与异构；（2）交互范式的演进（y 轴）：基于代码（code-based）、基于领域特定语言（DSL-based）与基于自然语言（NL-based）。

LLM/智能体用于结构化数据分析

结构化数据（如关系数据库 [42] 与图数据 [16]）因其标准化模式与明确定义语义而在工业实践中居于核心。传统路径依赖 SQL 等代码式查询语言，随后发展出面向特定领域任务的 DSL [2]。在 LLM 的推动下，用户可通过自然语言接口进行交互，进一步经代码生成、DSL 映射或LLM 问答来操作结构化数据 [139, 188]，而智能体还能编排多步分析工作流 [292]。其核心在于利用 LLM 驱动流水线或端到端处理。 * 关系数据。 常见做法是将自然语言分析任务通过 LLM 转为 SQL 或代码，进而对数据库进行操作以获得结果。为更好对齐自然语言与专用语言，常在流水线中引入模式链接 [271]、信息检索 [174] 与任务分解 [76]；或在特定任务上对模型进行微调 [265] 以提升端到端生成质量。另一方向是跳过数据库操作，直接使用 LLM 做语义分析，这要求模型更好理解分析意图与结构化数据内在关系，因而在流水线中常采用 RAG [170]、提示工程 [290] 与任务分解 [283]，并通过 MLLM/LLM [285, 196] 在文本或可视化表格表示上进行推理。作为关系数据的一种特化形态，时间序列同样受益于类似技术：将自然语言转代码、检索与变换序列，或直接进行时序推理 [14, 96]。 * 图数据。 图以实体及其依赖关系刻画复杂网络语义，但也带来巨大的搜索空间与路径推理挑战。已有图数据库与专用查询语言 [1, 3]，因此可将 LLM 作为自然语言与图查询语言的接口。为促进模型对图结构与语法的理解，常引入智能体 [130]、微调与提示工程 [129]。而面向图上的语义分析，主流思路体现为 RAG [276]、智能体 [146] 与微调 [264] 的结合。

LLM/智能体用于半结构化数据分析

半结构化数据介于非结构化文本与完全结构化的关系数据库之间，通常具备一定组织结构但不遵循严格模式。 * 标记语言。 XML、JSON 与 HTML 是常见形式。由于其同时包含标签与内容并天然具备结构属性，其技术演进与半结构化表格关系紧密，也推动了结构感知的预训练语言模型（PLM）发展 [18, 221]。 * 半结构化表格。 这是一类更灵活的表格数据。传统基于 PLM 的方法（如 [73][140]）受限于对复杂版式、不规则表头与层级结构的表征能力。随着 LLM 的出现，新范式包括将半结构化表格转换为类关系型形式（SemiStru2Stru） [54, 117]，以及利用 DSL 显式编码结构与操作的DSL 建模 [202]。

LLM/智能体用于非结构化数据分析

非结构化数据涵盖图表、视频、文档、程序代码与 3D 模型等，因缺乏固定模式而对传统流水线提出挑战。 * 图表（Chart）。 传统方法多依赖手工特征、模板匹配或规则解析 [99, 157, 180]，易受设计与版式变化影响。LLM 出现后，可借助多模态理解解释图表的视觉与结构元素 [154]，执行语义数据抽取，并支持基于自然语言的推理、描述生成 [135, 164, 193] 与 QA [243, 46, 256] 等任务。 * 视频（Video）。 视频包含随时间演化的空间内容，需要语义与动态的联合建模。传统视觉骨干结合时间池化/注意力的方法面临标注成本与长序列效率问题 [33][210]。近期工作将视频重构为结构化 token 序列，以便 LLM 推理；智能体进一步将查询分解为时间定位、模态融合与摘要等子任务，从而实现更丰富的时序理解与高效计算 [33][49]。基于此，LLM 也扩展到视频情感分析（融合视觉、声学、文本线索进行情绪推断），并结合姿态/3D 网格重建，支持互动建模与关系情感预测 [90, 159]。在目标检测方面，将高精度检测器与多模态推理结合，能够在视频中进行以对象为中心的摘要与参照定位 [48, 269]。此外，手势与行为检测可利用 LLM 驱动的流水线提取细粒度运动与手势特征，支持交互分析与具身行为推理，常借助 3D 重建以提升保真度 [236, 235]。 * 文档（Document）。 PDF、网页与扫描报告是商业与学术信息的主要载体。传统文档分析依赖 OCR 与规则模板 [277, 67]，在复杂/多变版式与深层语义理解上乏力。多模态 LLM 通过统一处理文本—版面—视觉信息带来了变革： (1) 架构创新（如 LayoutLM 系列到 DocLLM）协同理解结构与内容 [253, 254, 86, 209]；(2) RAG 适配长文档或多文档的问答与摘要 [110, 108]；(3) 合成数据生成缓解标注数据稀缺 [184, 187]。这些技术推动文档处理从信息抽取迈向深度推理与综合。 * 程序（Program）。 程序分析旨在理解、验证与优化源代码，是软件工程的基石。传统静态/动态分析严谨但需要大量专业知识，且难以扩展至语义复杂的大型代码库。LLM 通过大规模代码学习获得了强大的生成与理解能力，催生新的分析范式。其核心在于构建与利用代码—任务对（如带漏洞标签、功能描述的代码片段）。借助迭代改写、自我校正等高级数据合成技术 [148, 34]，可生成高质量训练数据，支持自动定理证明（ATP）、漏洞检测与仓库级补全等前沿应用 [247, 142, 272]。值得注意的是，代码领域 RAG 的深化显著增强了模型利用整个代码仓上下文的能力 [128, 239, 63]。 * 3D 模型（3D Model）。 3D 模型以点云、网格或体素表示欧氏空间中的物体/场景，广泛用于场景理解与科学分析。传统流程依赖几何处理（如网格简化、点云配准）[78, 59, 37] 与专业建模软件（如 Blender、Maya [25, 204]），既需要人工标注又缺乏语义理解。近期方法通过 3D–语言对齐 [77] 将几何转换为结构化嵌入或文本描述以便推理；智能体编排专用 3D 编码器与工具链，支持描述生成、导航、科学问答等任务 [77, 250]。进一步地，3D–语言融合框架将点云/网格映射到与自然语言对齐的嵌入，促进3D-LLM、3UR-LLM 等任务 [77, 250]；面向领域的扩展将分子与蛋白结构纳入多模态推理（如 3D-MoLM、ProteinChat、ProtChatGPT）[119, 61, 208]。此外，跨模态细化通过特征增强与域自适应来桥接 2D/3D（如视觉定位、2D–3D 对齐或联合预训练），增强多模态 LLM 的泛化 [77, 119, 250]。

LLM/智能体用于异构数据分析

异构数据指多种类型数据的集成（如关系数据、半结构化表格、文档图像）[217]。早期研究聚焦异构数据管理 [7]，通过类 SQL 语言实现数据检索。结合 LLM 的最新进展主要体现在三方面：（i）跨模态对齐 [205, 38]（如利用自然语言描述计算跨模态相似度）；（ii）面向异构数据检索的自然语言接口 [169, 218]（将用户查询翻译为预定义 API 序列）；（iii）异构数据分析智能体 [162, 219]（为 LLM 配备适配不同模态的语义操作工具）。

LLM/智能体在数据分析中的演进

如图 1 所示，LLM 赋能的数据分析智能体可沿五个关键维度概括，每一维对应通用数据分析智能体的设计目标： * 从字面到语义。 早期更多是生成可执行代码或 DSL 来辅助分析；现在正转向基于语义理解直接产出分析结果，减少中间过程。 * 从单一模态到模态融合。 由仅支持单模态转向可在多模态之间进行协同分析的模态混合能力。 * 从人工开发到自主设计。 由人工分解工作流（任务拆解、代码生成、操作执行）转向更广泛的自主工作流设计，降低人为介入。 * 从工具耦合到工具辅助。 由紧耦合、框架特定的工具体系，转向可调用任意工具集的解耦架构，提升灵活性与适应性。 * 从封闭世界到开放世界。 由面向特定领域任务的定制智能体，演进到可分析多样真实世界数据（文档、视频等）的通用型智能体，降低用户门槛。

1.4 对比与贡献

相较于现有关于数据分析 LLM 的综述 [139, 188, 292, 185, 181, 97, 242, 53, 22, 58, 12, 201]，我们的工作更全面、细致地覆盖了不同数据类型上的关键技术，并强调这些类型之间的内在联系。我们独特地从数据模态与接口语言两个视角审视技术发展趋势，并进一步提出构建通用 LLM 数据分析智能体的关键设计维度。 * 典型数据分析任务的全景式综述。 不同于聚焦于单一模态或单一任务（如 NL2SQL [139, 188, 292]、图理解 [185, 181]、表格问答 [97, 242]、文档理解 [53, 22]、图表理解 [58, 12]、视频理解 [201]）的综述，我们按结构化—半结构化—非结构化—异构数据系统化梳理技术版图，追踪 LLM 赋能数据分析的技术演进，并识别面向通用数据分析智能体的五个关键设计维度。 * 数据分析技术的细粒度回顾。 超越高层概述，我们深入讨论具有代表性的技术路线，阐释其基本原理、技术设计与应用场景。区别于以往综述，我们进一步强调面向下游任务的数据构建/整理的重要作用，并给出相应的分析洞见。 * LLM/智能体作为数据分析师的最新进展。 除既有技术外，我们着重梳理了利用 LLM 推动数据分析的前沿发展（如智能体式设计、多模态对齐、交互技术），为研究者与实践者提供最新的参考。 * 开放挑战与未来方向。 我们识别了尚未解决的关键技术与实践挑战（如可扩展性、评测、真实系统集成），并在此基础上提出有前景的研究方向，以引导通用型 LLM 数据分析智能体的发展。

1.5 文章结构

第 2 节讨论面向结构化数据的 LLM 方法，涵盖关系数据（第 2.1 节）与图数据（第 2.2 节）。第 3 节回顾半结构化数据分析，包括标记语言（第 3.1 节）与半结构化表格（第 3.2 节）。第 4 节考察非结构化数据分析，覆盖图表（第 4.1 节）、视频（第 4.2 节）、文档（第 4.3 节）、编程语言（第 4.4 节）与 3D 模型（第 4.5 节）。第 5 节面向异构数据分析。对每类数据，我们先介绍数据分析技术，再给出数据构建/整理的小节。第 6 节讨论各数据类型面临的挑战与未来方向，第 7 节总结全文。

成为VIP会员查看完整内容

AI与军事 · 美军条令 · 空域控制 ·

9 月 29 日

《美空军条令出版物3-52：空域控制》2025最新63页

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

当今的空域环境日益复杂。防空系统、巡航导弹、无人机系统（UAS）、巡飞弹药及远程火力的技术进步塑造了此种复杂性。空域的垂直维度，以及部队在其中机动的速度与自由度，对寻求在空域行使控制的指挥官构成了独特挑战。此外，飞机性能、空域特征、空域使用及各种控制程序等广泛变量增添了额外的复杂层。因此，空域控制的目标是使军事行动能最有效、高效且安全地利用空域，以实现联合部队指挥官（JFC）的目标与优先事项。

空域控制极具动态性与情境性。它需要灵活且响应迅速，以容纳具有不同技术能力的用户，并缓解技术故障或敌方行动的影响，从而优化空域使用。因此，空军人员应具备空域专业知识并结合联合视角，以确保空域控制系统与程序促进空域的安全、高效和灵活使用，同时提升作战效能并赋能新兴联合部队能力（如小型UAS、讯飞弹药）。经验证的空域控制程序具有持久效用，但新技术与新平台将迫使持续调整以适应不断变化的作战环境。空军人员必须创新思维，以预见并解决未来挑战。此外，至关重要的是，空军人员须接受训练，以分布式方式周密规划全域效应，并在分布式环境中与决策者隔离时执行任务。空军人员必须习惯于依据指挥官意图与任务式指挥原则进行决策和行动。

在建设更具能力的未来部队时，条令必须演进以适应新技术。现有的指挥控制（C2）架构，结合经验证的最佳实践，为应对不断演变的空域挑战的创新解决方案奠定了基础。

空域控制定义为“通过控制程序与协调措施（CM）对指定空域及用户行使被授予的权限，以最大化作战效能。” 联合作战中的空域控制是一个术语，用于描述空域控制权（ACA）所执行的活动与行使的权限。空域控制权是指被授予空域控制总体责任的指挥官。空域控制权制定空域控制计划（ACP）并通过空域控制系统（ACS）实施空域控制。空域控制系统是空域控制权对组成部队和东道国空域控制要素（即空域控制组织、人员、政策、程序与设施）的安排。为保障空中任务指令（ATO）的执行，空域控制要素扮演包括空战管理（如C2联合空中作战）、防空（战斗识别、预警、武器控制状态、目标跟踪、防御性防空[DCA]）或监视与侦察等角色。

依据（IAW）联合部队指挥官指南，空域控制要素管理空域申请、指挥机动飞机并整合火力。有效的空域控制需要计划与持续评估。计划在作战行动开始前启动，并通常在竞争连续体中经历不同程度的民用与军用控制过渡。联合部队指挥官批准联合作战区域（JOA）内的空域控制程序。空域控制旨在最大化作战效能，同时不过度限制任何军种或职能组成部队的能力。

飞机性能、空域特征、空域使用及各种控制程序等广泛变量为空域控制操作增添了层层复杂性与难度。此类挑战在多国空中行动期间尤为突出。东道国关系、系统互操作性以及跨组成部队与伙伴部队的不同规划流程也引发了额外关切。同样，其他政府机构、民用用户、非政府组织及救援机构可能需要使用战区空域。总之，这些用户需求需要一个集成的空域控制系统，以实现空域的安全高效使用，并降低误伤事件及对民用和中立力量意外交战的风险。

制空权

制空权不同于空域控制，但与之密切相关。无论联合部队在空域行使的控制程度如何，一定程度的空域控制对于空中作战是必要的。联合部队在特定时间地点相对于敌方在空域行使的控制程度可描述为空中均势、优势或绝对优势。空中均势描述了一个对抗环境中没有任何一方掌握制空权的状态。空中优势描述了一种控制程度，使一方能在给定时间地点实施作战而无须承受来自空中与导弹威胁的压倒性干扰。空中绝对优势描述了一种控制程度，使敌方无法在作战区域内使用空中与导弹威胁进行有效干扰。

虽然空中绝对优势最为理想，但在作战中可能不可行。在此类情况下，空中优势，即使是局部或暂时的，也可提供足够的行动自由以创造预期效果。局部空中优势作战的空域控制程序应反映联合部队指挥官可接受的风险水平与作战目标之间的平衡。这确保投入适当水平的空域控制资源以保障作战。联合部队空中组成部队指挥官，为实现防空目标，将空域控制程序与规划（一项空域控制权职能）与进攻性防空、防御性防空（一项区域防空指挥官职能）及其他组成部队作战相整合。空域控制计划可能对友方及民用空域用户实施更严格的限制，特别是当某些平台缺乏便于识别的通信设备与技术时。随着联合部队对空域控制力的增强，空域控制计划能容纳更多样化的空域用户。

任务式指挥

纵向与横向集成的指挥与控制能够在“集中指挥—分布式控制—分散执行”的任务式指挥框架内实现空域控制。此架构融合组成部队联络官、空域控制要素与空域用户，以增强域感知能力并满足指挥官意图。提升的空域感知能力有助于增强对空域控制系统与空域控制权的信任，同时缓解空域冲突并保障联合部队作战。空域控制要素与用户依据指挥官意图行动，从而在对抗、降级及作战受限环境中实现行动统一，此类环境中与上级总部的通信可能中断或无法进行。

空域控制权（空域控制的集中指挥官）被联合作战指挥官或联合部队指挥官授予空域控制权限。空域控制权应整合联合部队指挥官要求、能力与指挥控制结构，以构建一个连贯、韧性且可互操作的空域控制系统。空域控制系统架构应适应联合作战区域内的分布式控制与分散执行。空域控制权可进一步将空域控制权限下放给有能力有资源为更广战区或联合作战区域内特定空域范围进行空域控制作战（即实施指挥与控制流程：计划、准备、执行与评估）的指挥官。空域控制权的执行权限被授予各种空域控制要素（例如，控制与报告中心、空中支援作战中心、海军战术空中控制中心、机载指挥与控制），以根据计划、指令与命令分散执行空域控制与作战管理职能。下图描述了与任务式指挥框架对齐的概念性空域控制系统。

联合全域作战

空域控制本质上是联合的，并影响每个作战域。所有联合部队组成部队都有空域任务需求，这些需求应在空域控制系统内进行集成、协调、优先排序与冲突消解。空域控制系统的安排与运用应旨在：

最大化在空中、从空中及穿越空中实施的作战效能。
防止误伤事件，降低附带损伤风险，并防止对友方、中立及民用航空器的意外交战。
促进联合火力并增强防空反导。
增强并支持地面组成部队的机动、机动与运用。
促进海军水面部队的舰队防御与力量投送。
集成与同步全域作战以创造协同效应并实现联合部队指挥官目标。

此外，空域控制系统通过利用太空、网络空间与电磁频谱能力支持全域协同效应。天基系统为空域用户提供定位、导航与授时。当用户在偏远地区穿越或行动时，地基定位能力减弱。在此类情况下，太空系统的重要性增加。

空域的上限对应太空域的下限。太空域是指大气对空中物体的影响可忽略不计的高度以上的区域。空域控制权应通过联合部队太空组成部队指挥官或联合综合太空小组（若已建立）与美国太空司令部协调空域以上的任何行动或规划。

网络空间能力对于空域控制系统内的协调与空域控制功能至关重要。网络化系统使各种空域控制要素能持续接收准确及时的空域控制系统信息更新。除网络空间外，频谱管理对有效的空域控制系统至关重要。电磁频谱支撑空域控制系统的诸多方面，用于飞机与控制要素之间各种目的的传输。

前言
第一章：空域控制导论
- 基本原则
第二章：空域控制基础
第三章：指挥与控制
- 空域控制系统 (ACS)
- 战区空中控制系统
- 其他美国空军空域控制要素
- 战区空地系统 (TAGS)
第四章：空域控制规划
- 通信规划
- 应急规划
- 危机规划
第五章：空域控制执行
- 合作
- 竞争
- 武装冲突/战争
- 战后作战行动
第六章：本土行动与法律
- 附录 A：空域控制计划示例
- 附录 B：概念性风险评估矩阵
- 附录 C：区域空中机动控制/协调中心
参考文献

成为VIP会员查看完整内容

AI与军事 · 人工智能 · 无人机 · 制空权 ·

10 月 2 日

《人工智能、无人机作战与正在形成的制空权新范式》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

未来的空战胜负不仅取决于谁的飞行器最快或最隐蔽，更取决于谁能在遭受攻击时思考、感知和行动最快，以及谁能保持其算法的可靠性。人工智能与无人机系统的结合正在重塑制空权的逻辑。二十世纪的空中优势取决于平台性能、飞行员技能和出动架次，而二十一世纪正迅速演变为一场认知节奏的竞赛——当人类与机器作为一个整体在对抗环境中运作时，“观察-调整-决策-行动”循环的速度与可靠性成为关键。边缘人工智能、传感器融合、巡飞弹和协同蜂群技术能以机器速度将原始传感器数据转化为战斗效果。这种速度能否转化为作战优势而非战略负担，取决于在对抗性电磁环境中的韧性、安全的模型保障流程以及能保持态势理解与问责性的人机交互设计。决定性资源正从飞机与弹药转向可信数据生态系统和快速、可审计的软件更新周期，这一转变重新配置了采购优先级、训练和盟国互操作性。

人工智能与无人机整合将如何重塑制空权：

人工智能与无人机融合对制空权的三重变革：

软件成为核心战斗力：未来战争中，最具决定性的资产往往是算法模型、用于训练模型的标注战场数据，以及向前线节点推送更新的安全传输流程。模型的持续集成与持续部署能力，即快速迭代部署改进算法的效率，其重要性将与战机发动机和弹药储备等同。
韧性工程纳入作战条令：作战体系必须设计具备在卫星导航受阻、电子对抗和网络攻击环境下保持基本运行的能力。网状通信、降级自主模式、数据与模型的可靠溯源机制、明确定义的性能渐进衰减方案，都将从工程技术指标升级为作战刚性需求。
评估标准根本性转变：各国军队将日益采用作战效能指标衡量实力，包括：对抗环境下的平均目标识别耗时、算法模型从训练到部署的周期、误判引发的作战代价等，而非单纯统计战机架次与装备数量。对认知节奏与系统韧性的量化评估，将直接驱动装备采购与训练决策。

俄乌冲突实证

乌克兰战场已成为无人机创新的动态实验场：作战双方将大规模低成本无人机、巡飞弹药与商用技术改装整合成分布式作战体系，生成海量作战数据并实现战术快速迭代，显著提升杀伤链效率。基辅方面的实践表明，能在数周而非数年内完成实战数据重训、战术更新与后勤优化的部队，可突破传统装备采购周期限制，即便面对强敌也能夺取局部制空权。与此同时，俄军混合使用国产与进口无人系统的实践，既验证了此类装备的战术价值（如低成本饱和打击），也暴露出其替代体系化作战能力的局限性。军事学者从双方差异化的适应路径与力量结构调整中得出关键结论：真正的战略控制权，仍取决于能否将侦察监视、电子对抗、一体化防空与后勤保障熔铸为有机的作战体系。

印巴较量

2025年5月的印巴冲突首次展示了南亚地区大规模跨境无人机作战图景，两个核邻国间爆发了协同无人机突击与体系化反制行动。双方加速构建自主能力（印度推出数亿美元产业激励计划，巴基斯坦引进土耳其等技术），攻防两端的需求在实战中充分显现。这一区域性案例凸显了：当战略竞争对手获得对等技术扩散时，危机演进速度将急剧提升，冲突升级管控难度呈指数级增加。

成为VIP会员查看完整内容

#AI+军事

AI与军事 · 人工智能 · 决策支持 ·

10 月 6 日

战场AI决策支持系统

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在大国竞争和近期战场部署的推动下，人工智能与军事行动的整合正在加速。这些系统有望实现跨域更快、更协调的决策，但也带来了技术、组织、条令和政治方面的挑战，必须谨慎权衡其与作战优势之间的关系。

日益激烈的战略竞争已使人工智能成为国家安全政策的核心支柱之一。主要大国正大力投资于人工智能赋能的军事能力，加速了将人工智能融入国防架构的全球竞赛。近期的冲突进一步凸显了人工智能在战场上日益增长的重要性，促使军队加速现代化。这一转变的核心是人工智能赋能的决策支持系统的兴起——这些工具旨在帮助指挥官处理海量数据，以做出更快速、更明智的战场决策。

这一发展势头是在更广泛的人工智能革命背景下展开的。机器学习、大数据分析和计算能力的进步，如今使得大规模实时处理和预测建模成为可能。主要由商业行为体开发的民用人工智能平台，为军队向以数据为中心、算法支持的指挥系统转变提供了技术基础和数据生态。

这种转变在多域作战中最为明显，此类作战涵盖陆、海、空、天和网络空间。这些复杂的作战空间产生大量实时数据流。人工智能决策支持系统正被集成以融合这些信息，加速决策周期，并支持分布式、去中心化的指挥，尤其是在战术边缘。

然而，在这些系统压缩传统的“观察-调整-决策-行动”循环的同时，它们也引发了关于在时间敏感、高后果决策中的透明度、控制和人类监督削弱的新担忧。随着应用的加速，核心挑战不再是要不要采用人工智能决策支持系统，也不是如何实施它们。相反，关键在于如何以一种能够带来真正作战优势的方式来实现，同时又能保持问责制，遵守武装冲突法，并在关键时刻维持有意义的人类判断——这些挑战对于民主国家而言尤为息息相关。

当今的人工智能革命

人工智能的发展长期处于周期循环之中——热情和投资的高潮之后往往伴随着失望和停滞的阶段。尽管未来的“人工智能寒冬”无法排除，但当前的浪潮似乎有所不同——其驱动力在于技术成熟度、广泛的商业整合和加剧的地缘政治竞争的汇聚。

首先，当前的人工智能革命是由深度学习架构、大型语言模型的进步，新兴的智能体形式人工智能，以及数据和计算能力的指数级增长所驱动的，这些因素使得可扩展和自主的人工智能应用成为可能。人工智能系统能够检测海量数据集中的模式，实时处理多源传感器输入，并生成可行动的建议。

其次，当前的人工智能浪潮主要由全球科技生态系统内的创新所塑造。大型科技公司开发的通用模型正被集成到每个民用领域，包括物流、金融、媒体和消费技术。这种商业势头通过庞大、多样的数据流推动模型的持续改进，并创造了军队寻求适应国防背景的双重用途能力。

第三，人工智能已成为地缘政治和战略竞争以及军事创新的核心轴心，尤其在大国之间，将人工智能定位为未来战争的兵力倍增器。美国及其盟友正在推进依赖人工智能的作战条令，如“联合全域指挥与控制”和“马赛克战争”，旨在通过速度、数据整合和跨所有作战域的分布式指挥来获得决策优势。

军事与人工智能决策支持系统（AI DSS）

尽管由商业驱动，人工智能的发展正在重塑军事优先事项，其最直接的影响体现在战场决策层面。现代战争受到实施多域作战（MDO）愿景的塑造，这带来了前所未有的复杂性，要求具备能够管理跨多个重叠域的分散资产和高速交战的新型指挥与控制能力。

这一变革的主要催化剂是无人机和巡飞弹的迅速普及，它们从根本上改变了冲突的节奏和地理特征。当代作战现在需要更快的决策、更灵活的部署以及战术边缘更大的主动性——在战术边缘，单位在有限的中央监督下行动，但面临较高的作战风险。比对手更快速地感知、决策和行动的能力正成为战场优势的决定性特征。

与此同时，现代冲突从战场上的无人机、卫星和其他传感器产生海量实时数据。这些信息的体量、速度和多样性超出了人类认知能力。因此，军事决策者肩负的任务是以越来越高的速度将复杂、不确定且通常不完整的数据转化为可行动的决策。人工智能决策支持系统（AI DSS）已成为应对这些挑战的关键解决方案。这些系统旨在融合跨域数据，增强态势感知，并支持更快速、更连贯的决策，尤其是在“传感器到射手”循环和分布式作战内部。通过这种方式，人工智能决策支持系统（AI DSS）能够为前线单位提供量身定制的评估和建议，从而实现分散决策，使它们即使在通信降级和时间紧迫的条件下也能更自主地行动。

然而，人工智能决策支持系统（AI DSS）的日益使用并非没有争议。关于其风险和益处的积极辩论正在进行中。支持者认为，这些系统对于维持作战节奏、提高韧性以及适应多域作战（MDO）的需求是不可或缺的。批评者则警告不要过度依赖不透明的算法，指出这可能会削弱人类判断力、模糊问责制并增加战术失败的风险。

人工智能与OODA循环

OODA循环有助于理解人工智能对现代战争中决策的影响。它由美国空军上校约翰·博伊德于20世纪70年代提出，此后一直影响着美军的战术层面思维。其核心思想是决策的速度和质量决定军事成功。那些能更快、更准确地完成OODA循环四个连续阶段的一方将在作战中占据上风。

循环始于观察阶段。人工智能决策支持系统（AI DSS）可以通过收集和分析来自战场内外大量传感器（包括无人机、卫星、雷达及其他来源）的数据来助力此阶段。在调整阶段，这些数据流可由人工智能系统处理，例如通过计算机视觉模型，来探测、识别和分类战场上的军事目标。调整阶段还包括利用预测模型来识别战术变化和预测可能的敌方部署。

在决策阶段，人工智能决策支持系统（AI DSS）可以通过权衡潜在结果与既定任务目标、可用资源和作战约束，来评估和推荐可能的行动方案。人工智能系统还能评估和优先排序军事选项，突出相关风险，并建议最有效的行动方案。在行动阶段，人工智能决策支持系统（AI DSS）可以通过计算武器轨迹、协调射击方案以及同步多个单位的机动来支持所选策略的实施。人工智能决策支持系统（AI DSS）也可用于进行战后行动和战场毁伤评估。其结果随后可用于改进底层模型，优化未来的战术建议，并更准确地预测敌方行动。

虽然人工智能决策支持系统（AI DSS）被视为加速和增强OODA循环每个阶段的关键赋能因素，但它们也带来风险。在某些情况下，OODA各阶段可能被人工智能决策支持系统（AI DSS）如此紧密地连接在一起，以至于它们实际上变成了一个单一的连续处理流。因此，在高速度环境下，这种流式处理使得理解人工智能决策支持系统（AI DSS）为何产生特定输出变得更加困难，而非按顺序展开。

除了“为何”的问题，“何人”负责在人工智能决策支持系统（AI DSS）的决策过程中也可能存在不足。OODA循环越紧凑，人类越无法对决策和行动实施有意义的控制的风险就越大。“人在回路”的角色可能被削弱为仅仅是一种象征性的安全预防措施。人类的监督在形式上可能仍然存在，但在功能上受到限制，因为系统的速度和复杂性超过了操作员实时判断和干预的能力。对于致力于遵守武装冲突法和民主监督的军事机构而言，核心挑战在于如何利用自动化的速度和规模，同时不在关键环节放弃人类责任。这一挑战在对手可能愿意优先考虑速度而非控制的战略环境中会变得更加复杂。

挑战

采用人工智能决策支持系统（AI DSS）至少会引发四大挑战。首先，从技术角度看，人工智能决策支持系统（AI DSS）必须在战斗条件下可靠、可解释且具有韧性。战场现实，如数据降级、不完整或低分辨率，可能削弱这些系统的性能。因此，在人工智能决策支持系统（AI DSS）上建立并维持作战信任至关重要，尤其是在高风险和对抗性环境中。一个密切相关的挑战在于确保军事人员具备足够的技术素养。操作员必须能够解读、质询并自信地根据系统建议采取行动，而不是简单地接受表面输出或完全忽略它们。

其次，从组织视角看，日益依赖商业供应商为人工智能决策支持系统（AI DSS）提供数据，长期来看可能带来互操作性和数据控制风险。云基础设施易受网络攻击、服务中断以及物理中断的影响，这可能破坏人工智能决策支持系统（AI DSS）的正常运行。其他问题包括数据法规和对敏感数据的主权控制。在作战层面，军方可能需要短时间内扩展计算能力，以应对情报处理或实时战场分析的高峰需求。与此同时，持续的人才缺口加剧了这些挑战：人工智能专家在民用和国防部门仍然稀缺，而私营部门在招聘和留用方面往往保持竞争优势。

第三，使用人工智能决策支持系统（AI DSS）也在条令层面带来挑战。日益复杂且可能自主的人工智能决策支持系统（AI DSS）的整合，面临着可能模糊责任与问责界限的传统指挥结构和决策流程。使用条令概念发展缓慢，导致不确定如何在动态作战环境中使用此类系统，以及人类操作员应如何与人工智能生成的输出交互。没有充分的培训和指南，操作员可能要么过于轻易地遵从人工智能系统导致过度依赖，要么因缺乏理解或信心而未能充分利用它们。

第四，人工智能赋能的决策在政治层面提出了根本性问题。人工智能决策支持系统（AI DSS）必须按照国际人道法（IHL）运作，包括区分、比例性和军事必要性等核心原则。在联盟作战中，政治领导人将面临关于互操作性的艰难决策——尤其是在人工智能系统的交战逻辑、数据来源、条令假设或国际人道法（IHL）合规水平存在差异时。最后，对商业系统的日益依赖引入了可能削弱国家自主权的战略依赖性。虽然采用商业平台可能更快、更便宜，但这会带来对核心能力的控制减弱以及来自专有系统和私营部门决策的漏洞风险。

展望

确保负责任地采用人工智能决策支持系统（AI DSS）需要在技术、组织、条令和政治维度上采取协调行动。在技术上，人工智能决策支持系统（AI DSS）需要投资进行稳健的测试、验证和在逼真条件下的红队测试工作，以优化系统输出。应优先发展可解释人工智能和建立清晰的性能基准，以建立作战信任。

在组织上，政府和军方必须与工业界建立结构化的合作伙伴关系，围绕透明度、问责制和国家主权控制来构建。联合测试平台、开放标准和强有力的监督机制有助于弥合商业创新与军事需求之间的差距。这些伙伴关系必须建立在清晰的数据治理、生命周期管理和安全框架内。鉴于作战中对激增能力的需求，还必须保证能够获得可扩展且安全的计算基础设施。此外，在广泛作战环境中集成、维护和持续更新人工智能决策支持系统（AI DSS）将需要开发者和国防机构之间持续且结构化的协作。

在条令上，军方需要重新思考在人机编队中如何行使指挥与控制。传统的角色和决策层级必须演进，以适应新形式的人机交互，包括明确界定的角色、升级规程和监督机制。专业军事教育必须融入人工智能素养、批判性思维和伦理培训，以确保操作员既能理解系统输出，又能保持自信，而不会过度依赖自动化。

在政治上，负责任地使用人工智能决策支持系统（AI DSS）必须基于法律、规范和战略原则。联合国“致命性自主武器系统”政府专家组（GGE）、国际论坛提供了现有平台来建立共享规范和治理结构——即使全球共识仍遥不可及。同样重要的是与私营部门技术提供商的接触，其中许多公司总部设在国家管辖范围之外，且受商业而非地缘政治优先事项的指导。跨越这种军民界限来协调激励、访问权限和问责制，对于维护战略自主性和民主监督至关重要。

总之，仅凭技术能力并不能保证战略优势。随着创新加速，人工智能决策支持系统（AI DSS）被开发和部署的速度很可能超过人们对其充分理解、治理或有效融入军事行动的速度，这种风险日益增长。挑战不仅仅在于加速决策，更在于确保决策保持知情、可问责且在作战上合理——即使是在不确定性、复杂性和时间压力的条件下。能否把握这种平衡，不仅将决定未来战争的有效性，也将决定人工智能在武装冲突中更广泛的合法性。

成为VIP会员查看完整内容

AI与军事 · 大语言模型 ·

10 月 14 日

《美军使用大语言模型技术生成领域特定文档》2025最新379页

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来，大型语言模型（LLM）的发展和普及已对社会多个部门产生显著影响。美国军方认为应立即采纳并试验这一新兴技术，以通过更高效的工作流程满足日益增长的作战需求，保持对近似同级对手的技术优势，并发现其局限性和脆弱性，这一点至关重要。本文开发了一个端到端的框架，涵盖从LLM选择到文档评估的领域特定文档生成。我们开发的领域特定文档生成框架融合了多种技术，包括提示工程（PE）、检索增强生成（RAG）、一种代理式方法以及一种LLM作为评估器的方法。为了验证该框架，我们选择了一个"战争路径推演"（road-to-war）文档作为测试用例，该文档通常用作国防部（DoD）兵棋推演、作战、训练和分析界进行想定开发的起点。使用此框架，能够生成看似合理的领域特定文档，这些文档经专家验证具有实用性，并且与人类生成的示例文档没有显著区别。我们的研究表明，LLM可以增强针对文本生成任务的领域特定工作流程，并且通过利用这项快速发展的技术可以实现显著的时间节省。

美国军方必须加强和扩大对生成式AI技术的探索，以确保近似同级对手无法获得技术优势。该技术仍处于起步阶段，美国军方现在必须投入时间和资源来理解、探索和运用LLM，以取得对近似同级对手的决定性优势。使用LLM技术的一个关键组成部分是，军事战略家和关键领导者需要了解选择、修改和开发LLM模型的最佳方式，以及随后如何托管该模型及任何相关应用程序，以实现军事人员的广泛使用和访问。

存在许多模型选择框架（参见模型选择方法章节），但通常最基本也是最重要的选择，即在给定用例中决定性能和性能指标的，是选择使用专有模型还是开源模型。考虑到国防部的信息/数据限制，以及LLM可能需要针对特定用例进行修改和专门化，开源模型可能更适合军事领域。本工作旨在建立一个专门的、开源的LLM框架，用于领域特定文档生成，该框架使用、比较并结合多种技术，可以在选定的用例上进行测试，并且可以在信息受限的环境中执行（例如，托管在本地硬件和基础设施上）。

本研究的主要目标是开发一种能够生成高度专业化、领域特定文档的方法论，该文档可在受限的计算环境中使用。我们将通过开发一个系统化、顺序化的框架来比较开源模型的领域特定文档生成性能（采用性能增强技术和方法论）与类似的人类生成文档，从而为当前的知识体系做出贡献。由于通用专有模型目前尚不具备生成高度专业化、领域特定文档的能力，我们的工作旨在开发、测试和验证一个可在受限或简陋计算环境中使用的文档生成框架。一个能够生成与人类生成文档无显著区别、且对领域用户具有实用性的领域特定生成框架，有潜力通过增强现有的非LLM驱动的工作流程，在组织效率和时间节省方面带来显著效益。

本工作分为六个章节。在第一章和第二章奠定基础并讨论问题陈述和研究重点之后，第三至第五章将探讨三种不同的技术/方法论（包括各章节的实验结果），第六章作为结论，讨论贡献和未来工作。

第一章： 本章向读者介绍LLM和生成式AI，并概述了工作的动机。首先描述了这项新兴技术如何在数月内席卷全球，并介绍了其在军事领域的潜在影响以及美国和近似同级对手采纳该技术的现状。我们概述了选定的军事用例（战争路径推演文档生成），该用例可通过应用LLM技术/方法论产生影响。最后，我们对开发的框架进行了简要介绍，以便于后续章节对框架组件进行解释。本章为深入探讨问题空间的更技术性解释奠定了基础和背景，并提供了工作的结构和组织。
第二章： 本章首先对LLM及其使用和操作的细节进行了更精确的定义。将涵盖LLM相关的历史先驱和自然语言处理（NLP）主题的简要概述，以及该领域的最新进展。还将探讨模型选择方法、开源与专有模型的比较以及模型选择的军事特定考量。在综合当前LLM技术发展水平（SOA）以及概述文本生成和相关工作之后，将提出问题陈述和初步研究问题以结束本章。
第三章： 第三至第四章的结构将基本保持一致，包括详细的文献综述、给定方法论/技术的描述、探索该技术的相关研究问题和假设、实验设计和程序以及结果。就第三章而言，将讨论使用专有模型的初步工作以及简单的提示工程方法。
第四章： 本章首先描述RAG以及为何有必要将其集成到我们的框架中（模型缺乏生成准确的"决胜行动训练环境"相关数据的能力）。我们还将探讨为何选择此方法而非监督式微调方法。本章最后讨论RAG方法论、实验（包括试点测试以及在框架中添加编辑过程）和结果。
第五章： 本章探讨了将基于代理的方法与RAG流水线实现相结合的集成方法。本章最后讨论代理式框架的实验和结果。
第六章： 本章是对第四至五章讨论的贡献的概要总结，并讨论了研究参与者如何评估三份文档的结果所蕴含的意义。同时，明确指出了研究过程中识别的可能影响结果的局限性和偏差，以及可从本论文延伸的LLM文本生成领域的未来可行工作和该领域的新兴趋势。
附录A： 技术细节，包括研究使用的实验平台信息、开源模型选择和Hugging Face仓库的详细信息、LLM变量、数据抓取程序和高级技术。
附录B： 定义了本工作中使用的常见LLM术语。
附录C： 使用简单提示工程技术进行初步实验的补充信息。
附录D： 本附录包含研究程序、协议、脚本和信息表。
附录E： 提供了文档评估指标的额外可视化图表。

成为VIP会员查看完整内容

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人工智能（AI）技术近年发展迅猛，其中大型语言模型（LLM）成为关键突破口。LLM 正在各行各业产生深远影响，而医学领域尤为突出。本文系统梳理了医学领域 LLM 的最新研究进展，深入分析了医学大模型的训练技术、其在医疗场景中的适配与落地、相关应用，以及由此显现的优势与局限。此外，本文基于训练方法对医学 LLM 创新性地划分为三种类型，并将其评估范式归纳为两大类。最后，围绕当前医学 LLM 领域面临的关键问题，提出相应解决思路并展望未来研究方向。通过对既有与前沿研究成果的系统回顾，我们旨在强调发展医学 LLM 的必要性，深化对其当前发展状态的理解，并为后续研究提供明确指引。

1. 引言

人工智能（AI）技术的快速演进与大型语言模型（LLM）[1]（如前沿的生成式预训练变换模型（GPT）[2] 系列）的突破，正以前所未有的深度与广度重塑医疗行业。凭借在文本生成、深层理解与复杂推理方面的卓越性能，这些模型正推动医疗走向更高效、更智能的形态（模型即服务，Model-as-a-Service，MaaS [3]）。在医疗领域，信息的获取与处理尤为关键：处理海量医疗信息不仅是支撑临床医务人员进行日常诊疗决策的基础，也是患者获取健康指导与研究者探索疾病机理的必要条件。此类诊疗信息跨越多维度，涵盖详尽的病例数据、丰厚的医学知识库、权威治疗方案、药物研发最新进展、疾病预防策略[4]，以及健康促进研究成果。信息处理能力直接影响患者诊断与治疗效果以及医疗服务总体质量，是推动医学进步不可或缺的支柱。然而在实践中，面对浩繁的医学文献[5]与复杂的诊疗记录，传统方案往往难以应对。

这些能力也不可避免地引出一个问题：LLM 是否会很快取代医生？为此，我们咨询了 ChatGPT。其回答是：尽管 LLM 在医学领域取得了历史性进展，但在演进过程中仍面临三大挑战。其一，AI 技术仍不成熟。尽管 LLM 具备诸多突出特性，AI 仍在持续发展中，尚不足以在运用专业知识与技能以解决患者问题方面完全取代医生。其二，数据偏置问题：训练数据的质量与准确性决定 LLM 的性能，若训练数据存在偏差，模型能力亦将受到影响。其三，隐私与安全问题：医疗数据属于患者隐私，一旦泄露或被滥用，后果不堪设想。因此，在 LLM 的应用中必须优先考虑隐私与安全。

生成式 LLM 指能自动生成自然语言文本的深度学习模型[6]。它们以大规模文本数据进行训练，通过对语言内部规律的深度理解，自动生成符合语法与语义规则的自然语言文本。这类模型不仅能生成连贯、合逻辑的内容，还展现出强大的创造力与泛化能力，可在不同领域与任务中保持优异表现。与此同时，也存在一类判别式 LLM[7]，其旨在区分不同类别或识别数据中的模式，常用于分类、回归与检测等任务，学习如何根据输入数据区分不同的输出或结果。二者差异见表 1。考虑到医学领域的具体情境，多数医学 LLM 为生成式，故下文中“LLM”与“生成式 LLM”可互换使用。LLM 的技术原理主要基于深度学习与自然语言处理（NLP）。通过对海量数据的收集与训练，LLM 能够深入学习并掌握语言的内部结构与普遍模式。模型通常采用端到端训练范式，建立输入文本与输出文本之间的映射关系。以 Transformer 模型[8] 为代表的关键技术采用自注意力框架，使序列内各元素之间实现复杂交互，有效缓解长文本生成中的信息丢失与梯度消失问题，显著提升模型性能。此外，LLM 将语言建模与生成算法相结合：前者估计语言中句子的概率，后者基于该概率分布生成具体文本；二者共同构成生成式 LLM 的核心技术框架。

在节奏快速的医疗领域，LLM 为临床实践、医学教育与科研带来变革性潜力[9]。医学领域对 LLM 的早期使用主要基于通用预训练语言模型进行领域自适应；随着技术持续演进，LLM 发展为诸如 GPT-4[10] 等前沿模型。这些模型突破了传统方法的限制，能够处理更复杂的语言理解与处理任务。通过分析医学数据并为医生与其他卫生专业人员制定更精准的诊断与个性化治疗方案，LLM 有望重塑医疗行业[11]。该技术不仅为临床与公共卫生工作者提供前所未有的强大工具，也深刻改写了我们对疾病诊断与治疗路径的理解与实践。借助先进的深度学习架构与经精调的机器学习模型，对海量医学数据进行深度挖掘与分析，LLM 能够模拟并生成与原始信息高度相似、甚至更为准确的新内容，从而确保有效的知识传递与创新。具体而言，LLM 在医疗行业的潜在变革性影响主要体现在三方面：其一，为医学数据评估提供新维度，使以往难以捕捉的细微变化与趋势显性化，为疾病的早期发现与干预提供有力支持；其二，在诊断层面，AI 算法可基于复杂数据分析给出更为准确的诊断意见——有时甚至超过人类经验——显著提升诊断准确率与效率[12]；其三，在治疗方案制定方面，LLM 可依据个体特征、疾病进程与治疗反应，帮助确保每位患者获得个性化治疗，真正实现精准医学的愿景[13]。这些以数据为驱动并经多轮训练迭代的医学 LLM，不仅具备强大的诊断判断力，也能在罕见病例诊断与治疗策略制定中快速响应临床需求；它们通过检索相关医学文献、病例分析与专家建议为医生提供有价值的参考[14, 15]。与此同时，医学 LLM 在口腔医学[16]、放射学[17]、核医学[18]与临床实践[19]等众多领域展现出潜在能力。目前，关于医学 LLM 的研究如火如荼，相关论文的发表与引用呈上升趋势（见图 1），应用前景广阔。

因此，系统探索 LLM 在医学领域的实际应用、优势、不足与潜在发展路径至关重要。本次最新综述旨在梳理大规模语言模型在医学领域的广泛应用场景，深入探讨其带来的诸多益处与当前主要挑战，并展望其新兴发展趋势。通过系统回顾既有研究成果，我们希望阐明发展医学 LLM 的必要性，深刻把握医学 LLM 的当前发展状态，并为后续研究提供方向性建议。为明确本文贡献并支持进一步研究，我们与同类综述进行了对比分析（见表 2），以凸显本工作的独特视角与贡献。具体贡献概括如下： * 全面覆盖：系统、最新且最为全面地回顾医学 LLM，从理论基础与方法进展到其多元医疗应用进行深入剖析。 * 阶段化综述：回顾 LLM 的发展历程，突出其各阶段的特征、成果与局限。 * 创新分类：基于训练方法将医学 LLM 创新性地划分为三大类型，并将其评估方法归纳为机器评估与以人为中心的评估两类，为医学 LLM 的研究与分类提供新视角。 * 趋势分析与策略建议：深入分析医学 LLM 领域的当前趋势，包括技术进展与既有挑战，并提出针对性的机遇识别与未来发展策略，期望为相关领域研究者与实践者提供有效指导。

文献回顾方法学：为确保对医学领域 LLM 的全面、专业考察，我们采用系统综述的方法。具体而言，在 Web of Science、DBLP、IEEE Xplore 与 Google Scholar 等主要学术数据库中，以“LLM medicine”“medical LLM”为核心关键词进行检索。在优先考虑 2020–2025 年间的出版物的同时，也纳入了 2020 年以前对该领域有重要推动作用的奠基性研究。首先基于题目与摘要对检索文献进行相关性筛选；在初筛之后，依照预设步骤进一步遴选，确保入选研究兼具相关性与高质量。（1）纳入标准：提出创新方法论、理论分析或对其观点进行实验验证的综述；考察一个或多个医学 LLM 从训练到部署过程的文献；经过正式同行评审的英文出版物。（2）排除标准：仅汇编他人成果而缺乏原创见解的文章；未经过正式同行评审的出版物；虽匹配关键词但与医学领域 LLM 直接相关性较低的研究。

如图 2 所示，本综述拟回答以下问题：第 2 节——LLM 如何发展？医学 LLM 如何训练？第 3 节——现代医学的局限何在？医学 LLM 能提供哪些超越现代医学的能力？第 4 节——当前医学 LLM 如何评估？第 5 节——应用医学 LLM 的优势与不足是什么？第 6 节——医学 LLM 的未来发展方向为何？第 7 节给出结论。![]

成为VIP会员查看完整内容

人工智能 · AGI ·

9 月 30 日

2025全球人工智能展望报告：通向AGI之路，76页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

当前，人工智能正朝着AGI的方向迈进。伴随技术突破与产业应用的深度融合，人工智能进入全新发展阶段。2025年被视为“智能体元年”，AIAgent已成为驱动产业变革的核心力量。智能体通过自主任务规划、动态决策与闭环执行，实现从被动响应指令到主动解决复杂问题的跨越。与此同时，各类AI硬件迎来新一轮迭代升级，从轻量化AI眼镜到便携AI录音卡片，硬件设备在便携性与场景适配性方面不断突破。“多模态模型”进一步打破技术边界，实现语言理解、视觉识别、音频处理等核心能力的深度融合。“世界模型”扮演更为重要的角色，基于内在模拟理解现实世界的物理与因果结构，通过预设未来场景指导决策。　　在此背景下，天津市人工智能学会、中关村科学城公司、深圳市人工智能行业协会、至顶科技、至顶智库、与非网联合发布《通向AGI之路—2025年全球人工智能展望报告》。报告从AGI特征出发，全面总结全球人工智能产业的主要参与者、典型产品和应用，对AGI发展的关键领域、核心技术进行分析解读，并呈现当前关注度较高的智能体、AI硬件及应用进展。最后，报告对AGI的未来发展方向进行展望。报告为政府部门、行业从业者、教育工作者以及社会公众更好了解2025年全球人工智能的发展进程，以及探索通向AGI的前进路径提供参考。　

成为VIP会员查看完整内容

多模态基础模型 · 博士论文 ·

10 月 9 日

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人类通过整合多种感官模态来理解世界，从而能够感知、推理并想象动态的物理过程。受这一能力启发，多模态基础模型（Multimodal Foundation Models, MFMs）已成为实现多模态理解与生成的强大工具。然而，当今的 MFMs 尚不足以作为真正有效的世界模型（World Models）。它们仍然缺乏一些关键能力，如反事实推理、动态过程模拟、时空信息理解、生成结果控制以及多层次综合推理等。本论文旨在探讨如何弥合多模态基础模型与世界模型之间的鸿沟。我们首先通过判别式任务提升 MFM 的推理能力，并赋予其结构化推理技能，包括因果推理、反事实思维与时空推理，使模型能够超越表层相关性，理解视觉与文本数据中的更深层关系。接着，我们探索了多模态基础模型在图像与视频模态下的生成能力，提出了用于结构化与可控生成的新框架。我们的方案融合了场景图（scene graph）、多模态条件控制与多模态对齐等策略，以引导生成过程，确保生成内容在高层语义一致性与细粒度用户意图上的协调统一。进一步地，我们将这些技术扩展至可控的四维（4D）生成，实现了在时间与空间维度上可交互、可编辑、可形变的对象合成。为了全面评估这一方向的进展，并推动迈向世界模型的最终目标，我们提出了 MMWorld 基准（benchmark），用于在跨学科与多维度推理任务上评测多模态基础模型的表现。综上所述，本论文旨在推动研究从静态感知迈向能够想象、推理与行动的智能系统，赋予模型在结构化环境中理解与交互的能力。通过使多模态基础模型更接近世界模型，本研究迈出了重要一步——朝着构建能够像人类一样观察、推理、模拟并与世界交互的智能系统前进。

成为VIP会员查看完整内容

专知，提供专业可信的知识分发服务，让认知协作更快更好！

摘要——随着具有革命性意义的自主智能体系统的兴起，研究界正在经历一场显著的范式转变：从传统的静态、被动、领域特定的人工智能智能体，迈向更加动态、主动且具备泛化能力的智能体型人工智能（agentic AI）。受智能体型人工智能的快速发展及其潜在通向通用人工智能（AGI）轨迹的启发，本文对智能体化多模态大语言模型（Agentic Multimodal Large Language Models，Agentic MLLMs）进行了全面综述。在本综述中，我们探讨了智能体化 MLLMs 的新兴范式，阐明其概念基础，并从理论上区分其与传统基于 MLLM 的智能体的差异。我们提出了一个概念框架，将智能体化 MLLMs 的能力沿三个基本维度进行系统化组织： (i) 智能体内部智能（Agentic internal intelligence）：作为系统的“指挥官”，通过推理、反思与记忆机制，实现精确的长时规划； (ii) 智能体外部工具调用（Agentic external tool invocation）：模型能够主动调用多种外部工具，将问题求解能力扩展到其内在知识之外； (iii) 智能体环境交互（Agentic environment interaction）：模型进一步被置于虚拟或物理环境中，使其能够采取行动、调整策略，并在动态的真实世界场景中维持目标导向的行为。此外，为了进一步促进该领域的研究，我们整理了开源训练框架、训练与评测数据集，以支持智能体化 MLLMs 的开发。最后，本文回顾了智能体化 MLLMs 的下游应用，并展望了这一快速发展的研究方向的未来趋势。为持续追踪该领域的最新进展，我们还在以下地址维护了一个持续更新的公共资源库： 🔗 https://github.com/HJYao00/Awesome-Agentic-MLLMs 关键词——智能体化多模态大语言模型（Agentic MLLMs），强化学习（Reinforcement Learning），推理（Reasoning），反思（Reflection），记忆（Memory），搜索（Search），代码（Code），图像思维（Thinking with images）

智能

1 引言

多模态大语言模型（Multimodal Large Language Models, MLLMs）近年来取得了显著进展，使人工智能系统能够在多种模态之间进行感知、理解、推理与生成 [1–8]。凭借强大的指令跟随能力与跨模态泛化能力，MLLMs 已能应对广泛的任务范畴，在通用应用与专业场景中均展现出越来越高的价值 [9–14]。然而，大多数传统的 MLLMs 仍然运行在查询–响应（query–response）范式下，即静态输入对应单一输出。这种范式对于复杂、动态的真实世界任务往往是不足的，因为此类任务需要具备三类关键能力： 1. 内部智能（internal intelligence）：包括推理 [15–18]、反思 [19–20] 与记忆 [21–22]； 1. 外部工具调用（external tool invocation）：包括信息检索 [23–24]、代码执行 [25–26] 与视觉处理 [27–29]； 1. 环境交互（environment interaction）：包括虚拟具身 [30–31] 与物理具身 [32–33]。

为突破静态查询–响应交互的限制，研究者提出了MLLM 智能体（MLLM agents） [34–35]，它们将 MLLMs 嵌入到结构化的工作流中，从而实现任务分解、情境化推理与外部工具集成 [36–41]。尽管此类方法在实践中取得了显著效果，但仍面临以下约束： 1. 静态工作流：依赖于预定义的、人工设计的流程，缺乏灵活性，难以适应新颖或动态环境； 1. 被动执行：多为被动响应指令，缺乏自主规划、工具调用或主动环境交互的智能； 1. 领域特定性：通常面向单一任务或领域，导致泛化能力差、可扩展性有限。

近年来，推理增强型 MLLMs [47, 61, 182, 183] 与强化学习（Reinforcement Learning, RL） [184–187] 的进展推动了从“基于工作流的 MLLM 智能体”向“智能体化多模态大语言模型（Agentic MLLMs）”的范式转变。与传统智能体不同，智能体化 MLLMs [24, 160, 161, 163, 188, 189] 被定义为自主决策体（autonomous decision-makers），具备内生的智能体能力，即在推理、反思、记忆、工具使用与环境交互等方面拥有自治性。基于此，智能体化 MLLMs 具有以下三方面关键优势： (1) 动态策略调整：不依赖静态、预定义的流程，而是基于先前规划、当前状态及预期环境交互动态调整策略与工作流； (2) 主动行动执行：可自主发起计划、在需要时主动调用工具，并通过反思中间结果改进后续步骤； (3) 跨任务泛化能力：能够在多样化任务与环境中运行，实现通用建模与学习，而非局限于狭窄的领域特定应用。这一转变标志着智能体化 MLLMs 不仅具备了自适应规划、主动工具调用与动态环境交互的能力，更代表了人工智能迈向通用自主智能体（general-purpose autonomous agents）的重要阶段。尽管智能体化 MLLMs 已引起学术界的广泛关注，但目前研究社区仍缺乏一份系统性综述来梳理现有进展、总结核心挑战并指明未来方向。为填补这一空白，本文从以下三大核心组成部分出发，对智能体化 MLLMs 进行系统性回顾： * 智能体内部智能（Agentic Internal Intelligence）； * 智能体外部工具调用（Agentic External Tool Invocation）； * 智能体环境交互（Agentic Environment Interaction）。

本综述从多个视角展开，包括理论讨论、基础概念、技术方法、训练与评测资源，以及未来研究方向。我们期望本文能为研究者提供当前成果的全面概览，并为该领域的进一步发展提供清晰路径。综上，本文的主要贡献可归纳为三点： 1. 系统回顾与分类：首次系统梳理智能体化 MLLMs 的发展脉络，并根据任务类型对现有研究进行全面分类与总结； 1. 最新进展汇总：总结智能体化 MLLMs 的最新方法学进展及训练与评测资源，并提供相应链接以便参考； 1. 研究挑战与前沿方向：提出若干值得探索的未来研究挑战与潜在研究方向。

为此，本文的整体结构如图 1 所示。其余部分安排如下：第 2 节讨论 MLLM 智能体与智能体化 MLLMs 的关系；第 3 节介绍智能体化 MLLMs 的基础概念，包括基础模型、智能体动作空间、训练与评测机制；第 4 节回顾并分类现有智能体化 MLLMs 研究，涵盖内部智能、外部工具调用与环境交互三个方面；第 5 节总结智能体化 MLLMs 的常用训练框架及相关数据集；第 6 节介绍其在深度研究（DeepResearch）、具身智能（Embodied AI）、医疗健康、图形用户界面智能体（GUI Agents）、自动驾驶及推荐系统等领域的应用；最后，第 7 节展望智能体化 MLLMs 的若干未来研究方向。

成为VIP会员查看完整内容

大语言模型 · 幻觉 · Transformer ·

10 月 10 日

大语言模型幻觉：系统综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

摘要——大型语言模型（Large Language Models, LLMs）已经彻底变革了自然语言处理领域，在多种任务上取得了显著性能。然而，这种令人印象深刻的流畅性往往以生成虚假或捏造的信息为代价，这一现象被称为幻觉（hallucination）。所谓幻觉，是指LLM生成的内容虽然流畅且语法正确，但在事实层面上不准确或缺乏外部证据支撑。幻觉削弱了LLM的可靠性与可信度，尤其在那些对事实准确性要求较高的应用领域中影响尤为严重。本综述系统梳理了LLM幻觉相关研究，重点关注其成因、检测与缓解。我们首先提出了幻觉类型的分类体系，并从数据收集、模型架构设计到推理阶段，分析了幻觉在LLM全生命周期中的根本成因。接着，我们探讨了幻觉在关键自然语言生成任务中的表现机制。在此基础上，我们分别构建了幻觉检测方法与幻觉缓解策略的系统分类框架，并分析了现有方法的优势与局限。同时，我们回顾了用于量化LLM幻觉的评测基准与指标体系。最后，我们总结了当前研究的主要挑战，并展望了未来可能的研究方向，为构建更加真实、可信的大语言模型提供理论与方法基础。 关键词——大语言模型；幻觉；幻觉成因；幻觉检测；幻觉缓解；幻觉基准；幻觉指标

1 引言

近年来，得益于基于 Transformer 的语言模型（Language Models, LMs）的快速发展，自然语言生成（Natural Language Generation, NLG）取得了显著进步。诸如 ChatGPT [1]、Claude [2] 和 Bard [3] 等大型语言模型（Large Language Models, LLMs）已经彻底变革了自然语言处理（NLP）领域，使得智能体在多样化应用场景中展现出强大的能力。这些模型在提高效率与生产力方面表现突出，推动了下游任务的发展，包括问答（QA）、抽象摘要、对话生成以及数据到文本生成等。尽管取得了突破性进展，LLM 仍面临一个关键挑战——幻觉（hallucination）。幻觉指的是 LLM 生成的内容虽然流畅且语法正确，但在事实层面上不准确或缺乏外部证据支撑 [4], [5]。这种现象可能导致严重后果，包括虚假信息的传播和隐私泄露。与传统人工智能（AI）系统通常针对特定任务数据进行训练不同，LLMs 使用了大规模的在线文本语料进行训练 [6]。这种广泛覆盖虽然带来了出色的连贯性与流畅性，但同时也增加了事实错误的风险。LLMs 可能反映训练数据中潜在的偏见，误解含糊的提示，或为了迎合输入的潜在意图而改变信息 [7]。当用户在医疗数据摘要、客户服务对话、金融分析报告或法律咨询等敏感场景中依赖语言生成时，这种问题尤其令人担忧。要理解幻觉的根本成因，需要从 LLM 的开发生命周期各阶段进行系统分析——从预训练到生成路径的整个过程。这种分析不仅有助于揭示幻觉的来源，也为幻觉检测与缓解技术的开发提供了指导。基于 LLMs 的标准开发流程，我们将其划分为六个阶段：数据收集与准备、模型架构、预训练、微调、评估与推理，并在每一阶段分析导致幻觉的潜在因素，从而全面理解幻觉的产生机制。此外，我们提出了一个系统的幻觉检测技术分类体系，将现有检测方法分为五类：基于检索、基于不确定性、基于嵌入、基于学习、基于自一致性。研究发现，单一检测方法难以在所有场景中表现优异。例如，基于检索的方法在处理事实性幻觉时表现出色，但高度依赖外部知识的质量；基于学习的方法精度较高，但需要高质量的标注数据；基于不确定性的方法通过模型置信度来减轻数据依赖性，但效果受阈值校准影响较大，且当模型对错误答案信心很高时常无法检测幻觉；基于自一致性的方法能捕捉逻辑与语境矛盾，但对事实性细微错误敏感度不足，且受提示多样性与采样策略影响显著；而基于嵌入的方法在捕获语义差异方面较为稳健，但在跨领域或低资源语言环境中性能可能下降。因此，多方法互补的混合检测方案（如学习结合不确定性，或检索结合学习）是提升检测稳健性与准确性的有前景方向。同时，我们扩展了现有研究中的幻觉缓解方法分类体系 [8], [9], [10]，将其划分为四大类：基于提示（prompt-based）、基于检索（retrieval-based）、基于推理（reasoning-based）以及基于模型中心的训练与自适应（model-centric training and adaptation-based） 方法。 * 提示式缓解方法通过结构化提示策略引导模型生成更具事实性的内容； * 检索式方法依赖外部知识以提供事实支撑； * 推理式方法（如思维链提示 Chain-of-Thought prompting, CoT 与自一致性方法）增强生成内容的逻辑连贯性与内在一致性； * 模型中心方法通过调整模型架构、修改训练目标或采用特定微调策略以提升模型的固有真实性与可靠性。

研究表明，单一方法难以彻底缓解幻觉，因此结合多种互补策略的混合方法更为有效，尤其是将提示或推理方法与检索式及模型中心式策略相结合的方案。此外，我们探讨了当前幻觉检测与缓解研究中面临的挑战，并提出未来研究方向。本综述在前人工作的基础上，进一步系统分析了幻觉的成因及针对幻觉检测与缓解的前沿技术。本综述的主要贡献如下： * 幻觉成因分析：系统分析了从数据收集、架构设计到推理阶段，LLM 全生命周期中的幻觉成因。 * LLM 幻觉分类体系：提出了涵盖幻觉成因、检测与缓解的综合分类框架，并总结了当前最先进（SOTA）研究成果。 * 幻觉检测方法综述：构建了五大类幻觉检测方法的结构化分类，并深入讨论了各类方法的潜力与局限。 * 幻觉缓解方法综述：将幻觉缓解方法分为四大类（提示、检索、推理、模型中心训练与自适应），并详细分析其效果与适用性。 * 数据集与评测指标：系统回顾了用于幻觉检测与缓解的基准数据集与评价指标，并指出其局限性。 * 基于推理的缓解分析：深入分析了包括 CoT、迭代优化、验证链（Chain-of-Verification）等推理增强方法在复杂任务中降低幻觉的作用。 * 多语言与低资源场景研究：探讨了低资源语言下幻觉问题的特殊挑战，并总结了跨语言迁移、多语言微调与提示自适应等缓解策略。

本文其余部分的组织结构如下：第2节回顾相关综述；第3节介绍幻觉的定义、类型及其在不同自然语言生成任务中的表现；第4节系统分析 LLM 各阶段的幻觉成因；第5节与第6节分别讨论幻觉检测与缓解技术；第7节与第8节介绍用于训练与评估的基准数据集与指标体系；第9节总结当前的开放问题与未来研究方向；第10节给出全文结论。![]

成为VIP会员查看完整内容

专知，提供专业可信的知识分发服务，让认知协作更快更好！

从图像与文本生成到音乐与艺术创作，生成建模一直是人工智能的重要挑战之一。本课程将探讨机器学习与人工智能中推动生成建模和基础模型（foundation models）最新进展的核心技术。学生将理解、开发并应用最前沿的算法，使机器能够生成真实而富有创造力的内容。核心内容包括：学习的基本机制；如何构建生成模型和其他大型基础模型（如用于视觉和语言的 Transformer、扩散模型）；如何训练这些模型（预训练、微调）以及如何高效地适配它们（适配器、上下文学习）；如何扩展到超大规模数据集（多 GPU/分布式优化）；以及如何将现有模型应用于日常使用场景（如代码生成、生成模型辅助编程）。学生还将探索这些模型的理论基础与实证研究，理解其内部机制，并学习可能出现的问题（偏见、幻觉、对抗攻击、数据污染）以及应对方法。课程强调通过实现来掌握现代技术，同时也引导学生使用现有库和模型来探索生成能力与局限性。本课程适合已完成机器学习或深度学习入门课程的学生。

学习成果

完成本课程后，学生应能够： * 区分不同的学习机制，如参数调优与上下文学习。 * 实现现代生成建模方法所依赖的基础模型，如 Transformer 和扩散模型。 * 将现有模型应用于文本、代码、图像、音频和视频等现实生成问题。 * 掌握基础模型的适配方法，如微调、适配器和上下文学习。 * 使生成建模方法能够扩展至大规模文本、代码或图像数据集。 * 使用现有生成模型解决现实中的判别问题及其他日常应用场景。 * 分析大规模基础模型的理论属性。 * 识别不同模态下生成建模的潜在风险。 * 描述大规模生成式人工智能系统的社会影响。

成为VIP会员查看完整内容

AI与军事 · 人机协同 ·

10 月 10 日

《军事行动中的人机协同共同学习》2025最新文献

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在军事威胁快速演变和作战环境日益复杂的时代，将人工智能融入军事行动被证明具有显著优势。与此同时，这也意味着以有效且合乎道德的方式构建和部署人机组队系统面临着各种挑战与风险。目前，理解和应对这些挑战通常是从外部视角着手，将人机组队系统视为一个集体智能体。然而，深入探究系统内部所涉及的动态关系，则能确保处理更广泛的相关多维责任、安全性和鲁棒性方面的问题。为此，本研究提出为军事行动中的人机组队设计一个可信的共同学习模型，该模型包含人类与人工智能智能体在共同适应不断变化的战场条件时进行的持续、双向的见解交流。它通过整合四个维度来实现这一点。第一，可调自治，用于根据任务状态、系统置信度和环境不确定性等方面动态校准智能体的自治水平。第二，多层控制，涵盖持续监督、活动监控和问责。第三，双向反馈，在智能体之间建立显性和隐性的反馈循环，以确保能恰当地交流各自的推理、不确定性以及习得的适应性。第四，协同决策，即生成、评估和提出与置信度水平及相关原理相关的决策。所提出的模型辅以具体的示例和建议，有助于在军事行动中进一步开发负责任且可信赖的人机组队系统。

关键词：人机组队，负责任的人工智能，可信赖的人工智能，共同学习，军事行动。

现代防务组织面临着加速发展的威胁以及将网络、电磁和动能行动以前所未有的流动性融合在一起的对手[1], [2]。面对此类威胁，人工智能赋能系统如今驱动着传感器融合、威胁分类和行动方案生成等应用[3]，在节奏、精度以及韧性方面均获得增益。然而，在未采取专门负责任措施的情况下，将人工智能模型构建并部署到指挥与控制链中，可能引入各种新的故障或故意敏感节点，例如模型脆弱、推理不透明、信任校准失误和问责空白，从而危及对武装冲突法的遵守[4]。因此，人机组队需要一种设计范式，不将这对智能体视为一个单一的超級智能体，而是视为一个动态的社会技术系统，其内部反馈、工作负荷转移和权限移交 critically 影响着作战效能及法律与伦理合规性[5], [6]。具体而言，人机组队代表了人类与人工智能智能体之间的伙伴关系，其中结合了他们的互补优势以实现共同目标[7], [8]，同时将伦理判断、适应性和创造力等人类特质与人工智能在数据处理、模式识别和自动化方面的能力相结合[9], [10]。人机组队环境中的核心角色包括动态协调、相互适应以及共享心智模型的发展，其中智能体队友是独特的团队成员，会根据特定背景下不断变化的任务和活动调整自身行为。

人机组队系统构建于诸如癌症检测等应用中，放射科医生与人工智能智能体协同工作，以确保和提高诊断的准确性与效率[11]。在创意领域，数字艺术家利用人工智能工具生成新颖的设计概念并简化创作流程[12]。在制造业，工人与协作机器人组成团队以优化生产工作流程并提升安全性[13]。

与此同时，在军事领域，人类操作员与人工智能驱动的决策支持系统共同分析战场数据以提供战术决策信息，而配备人工智能的无人驾驶飞行器与人类指挥官协作执行监视、侦察和协调的任务规划[14], [15], [16]。人类智能体与人工智能智能体之间的学习成分是有效人机组队的支柱，尤其是在军事等关键领域，因为此功能使得智能体能够持续相互学习并调整其行为，这对于在快速变化和不可预测的情况下保持作战效能、安全和任务成功至关重要[17]。共同学习过程促进了共享心智模型、相互信任和校准依赖的发展，确保双方智能体不仅理解任务环境，而且理解彼此的能力、局限性和决策模式[18]。这种动态适应通过联合训练演习、实时反馈循环以及将人类经验知识与人工智能数据驱动的见解相结合等机制实现。尽管对人机组队的兴趣日益增长，但在科学文献和从业者的努力中，关于明确捕捉和表示人类与人工智能智能体之间共同学习过程的模型仍存在知识空白。因此，本研究旨在开发一个模型，以捕捉和表示人机团队中共同学习的关键要素，并特别关注军事行动。通过弥补这一空白，所提出的模型旨在增进对如何执行人类与人工智能智能体之间的持续学习和适应以提升团队绩效、信任校准和任务成功的理解。为此，该模型采用设计科学研究方法论[20]，运用系统动力学机制[19]进行开发。

该模型嵌入了四个特性，即动态自治校准、多层监督、双向解释交换和置信度评分的协同决策，以确保人工智能不被视为替代品，而是作为一个自适应的队友，其能力、置信度和约束在与人类对应方共同规划、执行和评估军事行动时不断演进。具体而言，动态自治校准确保人工智能智能体的自治水平能够根据不断变化的任务要求和人类智能体的偏好持续调整，从而支持灵活且对情境敏感的组队。此外，多层监督使得人类和人工智能智能体能够在不同层级上监控、指导并干预彼此的行动，促进透明度、问责制和操作安全。同时，双向解释交换通过使双方智能体能够阐明其推理和意图来促进相互理解，这些方面对于在智能体之间及团队层面建立信任和共享态势感知至关重要。最后，协同决策将人类和人工智能智能体的置信度评估整合到联合决策中，增强了透明度，并降低了过度依赖或过低依赖人工智能智能体所提建议的风险。为此，该模型在一个围绕军事行动中相称性评估的执行而进行和实施的使用案例上进行了演示评估。基于所获得的结果，该模型在此情境下被证明是有效的，并为进一步理解和增强该领域的人机组队工作和系统提供了建模与仿真基础。

本文提纲结构如下。第2节讨论了相关的研究。第3节介绍了本研究所遵循的研究方法论。第4节阐述了所提出的系统动力学模型的设计。第5节讨论了仿真设置与获得的结果。第6节给出了结论性评述和未来的研究展望。

成为VIP会员查看完整内容

多模态大语言模型 · 视觉语言推理 ·

10 月 1 日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

摘要—— 多模态大语言模型（Multimodal Large Language Models, MLLMs）旨在实现对物理世界深刻且类人般的理解与交互，但在信息获取（感知，Perception）与推理（认知，Cognition）之间往往表现出浅层且不连贯的整合。这种脱节导致了一系列推理失败，其中最突出的就是幻觉（hallucination）。总体而言，这些问题揭示了一个根本性挑战：处理像素的能力尚不足以赋予模型构建连贯且可信的内部世界模型的能力。为系统剖析并应对这一挑战，本综述提出了一个新颖且统一的分析框架——“从感知到认知”。我们将视觉-语言交互理解的复杂过程分解为两个相互依赖的层次：感知，即准确提取视觉信息并与文本指令实现细粒度对齐的基础能力；认知，即建立在感知基础之上的高阶能力，能够进行主动的、多步的、目标导向的推理，其核心是形成一个动态的“观察-思考-验证”推理循环。在该框架的指导下，本文系统分析了当前 MLLMs 在两个层次上的关键瓶颈，并综述了旨在应对这些挑战的前沿方法，涵盖从增强低层视觉表征到改进高层推理范式的技术。此外，我们还回顾了关键基准数据集并勾勒了未来研究方向。本综述旨在为研究社区提供一个清晰且结构化的视角，以理解当前 MLLMs 的内在局限，并为构建具备深度推理和真正理解世界的下一代模型指明道路。 关键词—— 多模态大语言模型（MLLMs），交互式视觉-语言推理，感知与认知

1 引言

多模态大语言模型（Multimodal Large Language Models, MLLMs）的快速发展，正推动人工智能迈向其长期目标——通用人工智能（Artificial General Intelligence, AGI）[1], [2], [3], [4]：即创造能够以类人方式感知、推理并与物理世界交互的智能体 [5], [6], [7], [8]。这一进展的核心在于将大语言模型（LLMs）[9], [10] 的复杂符号推理能力与计算机视觉（CV）基础模型 [11], [12] 的强大感知能力深度融合。一方面，LLMs（如 GPT 系列 [13]）通过在大规模文本语料上的预训练，习得了广博的世界知识与强大的逻辑推理能力。然而，它们本质上局限于纯粹的符号空间，作为“盲目”的推理器，脱离了物理世界的感官丰富性。另一方面，视觉基础模型如 CLIP [11] 已成功将视觉与语言模态映射到统一的嵌入空间 [14], [15]，实现了前所未有的感知泛化能力。然而，它们通常缺乏复杂多步推理所需的深层认知能力。多模态大语言模型（MLLMs）的出现，标志着将这两类能力整合的初步探索。在早期的“探索阶段”（Exploration Phase, How to Connect?）中，以 Flamingo [16] 和 LLaVA [17] 等开创性工作为代表，核心挑战是技术性的：如何高效地将视觉编码器与 LLM 连接起来。当时研究社区主要集中于解决架构设计与特征对齐等基础性工程问题，目标是确保这种连接可行。然而，即便在众多基准任务上取得进展，这些模型在面对需要细粒度感知与复杂推理的场景时，其脆弱性也暴露无遗。这具体体现在最新模型 [18], [19], [20], [21], [22]（如 Qwen2.5-VL [23]、InternVL 2.5 [24]、GPT-4o [25]）中普遍存在的问题：它们经常误解视觉细节（感知缺陷），且无法维持连贯的逻辑链条（认知缺陷）[15], [26]。因此，研究重心逐渐转向一条系统化的发展路径——从“感知”到“认知”。尤其是，先建立精确的感知层作为构建高级认知的前提，已逐渐成为提升 MLLMs 能力的共识 [15], [27]。为系统性地描绘这一演进轨迹，本综述提出“从感知到认知”框架作为统一的分析视角。该框架将视觉-语言交互推理的复杂过程拆解为两个既独立又互相关联的层次。第一层是感知，即准确提取视觉信息并与文本指令实现细粒度对齐的基础能力。这不仅需要识别对象、属性与关系，还要求将文本概念精准地落地到具体视觉细节。第二层是认知，即建立在感知之上的高阶能力，能够执行主动的、目标导向的、多步推理。这涉及将复杂问题分解为逻辑步骤，并且关键地，能够动态地重新检视视觉证据，以验证或修正推理路径，从而形成一个“观察–思考–验证”的反馈循环。如图 1 所示，我们基于感知与认知这两大核心支柱，梳理了 2021–2025 年 MLLMs 的发展脉络。借助这一框架，本综述对交互式视觉-语言推理中的关键问题、方法学、基准任务及未来方向进行了结构化和系统性的回顾。我们的综述首先分析了推动该领域进展的感知层与认知层核心挑战。随后，回顾了旨在增强感知的前沿方法（如先进的视觉编码器）以及旨在强化认知的技术（如复杂的 Chain-of-Thought 范式与动态推理机制）。通过采用“从感知到认知”的视角，我们旨在揭示现有模型的局限，并描绘技术演进的路径。

1.1 本文综述结构

本综述对多模态大语言模型中交互式视觉-语言推理的关键问题、方法学、基准与未来方向进行了全面梳理。如图 2 所示，全文结构如下： * 第 2 节 概述视觉-语言交互中的基本问题。我们首先定义“感知”（第 2.1 节）与“认知”（第 2.2 节），然后基于这一框架分析 MLLMs 在这两个维度面临的主要挑战（第 2.3 节）。 * 第 3 节 回顾相关方法的演进，依照其所解决的挑战在“感知–认知”框架下进行组织。感知层面，我们探讨增强细粒度视觉能力（第 3.1 节）与改进视觉-语言对齐（第 3.2 节）的技术；认知层面，我们分析提升问题分解能力（第 3.3 节）及通过动态推理机制缓解幻觉（第 3.4 节）的研究。 * 第 4 节 重点分析关键基准与应用，涵盖科学问题求解、医学诊断、图表理解与视频推理等多领域任务，并评估当前模型在感知与认知能力平衡上的表现。 * 第 5 节 总结全文并探讨未来研究方向，包括潜在空间推理、生成式推理与工具增强推理等新兴范式，指出其可能如何进一步弥合感知与认知之间的鸿沟。

1.2 本文贡献

近年来，多模态大语言模型的综述论文激增，各自提供了对这一快速发展领域的独特视角。其中，Yin 等 [28] 最早在 2024 年初对 MLLMs 的发展进行了基础性综述。后续的研究逐渐专门化：一些综述聚焦于推理，分析增强逐步“慢思考”的方法 [29], [30]；另一些近期的综述 [31], [32], [33] 则集中于“带图像的思考”主题，系统分析了细粒度视觉推理的进展。尽管这些工作提供了宝贵见解，但大多要么聚焦于 MLLM 的通用架构，要么聚焦于高层推理的特定方面。相比之下，本文综述的独特之处在于采用了一种更基础的视角，将交互式推理分解为两个核心且相互依赖的组成部分：感知与认知。基于此，我们的主要贡献如下： * 新颖的分析框架：提出“感知–认知”框架，提供结构化的视角以理解视觉-语言交互中的根本挑战。该框架超越了任务或模型的表层分类，能够将幻觉等模型失败的根本原因映射到感知或认知层面的特定缺陷。 * 结构化的方法学分类：基于该框架，我们提出了系统且一致的方法学分类，展示了看似离散的研究方向（如增强视觉编码器与发展高级 Chain-of-Thought）实则是为解决“感知–认知连续体”上不同问题的针对性努力，从而澄清不同研究脉络间的关系。 * 统一的 MLLM 发展视角：通过沿“感知–认知”轴展开分析，本文明确揭示了高层推理对低层视觉表征质量的根本依赖性。我们将两者重新定位为 MLLMs 演进过程中的两个连续阶段，而非孤立的研究领域。这一统一视角提供了整体性的研究路线图，表明感知方面的突破是认知突破的必要前提。

成为VIP会员查看完整内容

登陆后查看更多精品内容

热门VIP内容

开通专知VIP会员享更多权益服务

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

乌克兰太空研究（2022-2024年） | 176页

【CMU博士论文】大型语言模型的隐性特性

国防领域人工智能走向何方？

VIP会员

本周荟萃主题

区块链

区块链（Blockchain）是由节点参与的分布式数据库系统，它的特点是不可更改，不可伪造，也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念，完整比特币区块链的副本，记录了其代币（token）的每一笔交易。通过这些信息，我们可以找到每一个地址，在历史上任何一点所拥有的价值。

深度学习

机器学习的一个分支，它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

机器学习

“机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

推荐系统

推荐系统，是指根据用户的习惯、偏好或兴趣，从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同，这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大，商品个数和种类快速增长，顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题，个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台，以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。

卷积神经网络

在深度学习中，卷积神经网络（CNN或ConvNet）是一类深度神经网络，最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征，它们也被称为位移不变或空间不变的人工神经网络（SIANN）。它们在图像和视频识别，推荐系统，图像分类，医学图像分析，自然语言处理，和财务时间序列中都有应用。

计算机网络

计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备，通过通信线路连接起来，在网络操作系统及网络通信协议的管理和协调下，实现资源共享和信息传递的计算机系统。

命名实体识别

命名实体识别（NER）（也称为实体标识，实体组块和实体提取）是信息抽取的子任务，旨在将非结构化文本中提到的命名实体定位和分类为预定义类别，例如人员姓名、地名、机构名、专有名词等。

机器翻译

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

计算机视觉

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

微信扫码咨询专知VIP会员

Top

专业可信的知识分发

1 引言

1 引言

1.1 传统数据分析的局限

1.2 LLM/智能体赋能的数据分析机遇

1.3 LLM 赋能数据分析的技术脉络

LLM/智能体用于结构化数据分析

LLM/智能体用于半结构化数据分析

LLM/智能体用于非结构化数据分析

LLM/智能体用于异构数据分析

LLM/智能体在数据分析中的演进

1.4 对比与贡献

1.5 文章结构

​​制空权​​

​​任务式指挥​​

​​联合全域作战​​

目录

人工智能与无人机整合将如何重塑制空权：

俄乌冲突实证

印巴较量

当今的人工智能革命

军事与人工智能决策支持系统（AI DSS）

人工智能与OODA循环

挑战

展望

1. 引言

1 引言

学习成果

1 引言

1.1 本文综述结构

1.2 本文贡献

制空权

任务式指挥

联合全域作战