及时全面理解新兴事件对有效决策至关重要;自动化态势报告生成能显著减少情报分析师的时间、精力与成本。本工作识别了情报分析师在态势报告生成中对AI辅助的实践与偏好,以指导设计符合其思维过程与需求的有效、建立信任的界面策略。继而,本文介绍智能书(SmartBook)——一个从海量新闻数据自动生成态势报告的框架,通过自动发现事件相关战略问题构建结构化报告。这些报告包含多个假设(主张),均基于来源进行摘要并辅以事实证据,以促进深度态势理解。本文对智能书进行的综合评估(含用户研究及结合编辑研究的内容评审)揭示了其在生成准确相关态势报告方面的有效性。定性评估表明超过80%的问题探查战略信息,超过90%的摘要产出战术实用内容,其表现持续优于结合网络搜索的大语言模型生成摘要。编辑研究显示生成文本的信息删除量极低(低于2.5%),表明智能书为分析师提供了有价值的态势报告基础。
在当今快速变化的世界中,情报分析师面临持续挑战:需在新闻、谣言与演变叙事的海量涌入中保持信息同步。为理解动态事件,必须从异构数据源提取共同真相。目前,情报分析师编写态势报告以提供事务概述、潜在风险或威胁及视角,并附指导行动规划与战略发展的建议措施(Organization等人,2020年,2022年)。态势报告需以清晰逻辑结构呈现关键事件与趋势的突出信息,便于理解、跟踪及便捷获取。这些报告的下游消费者(公众、决策者与利益相关方)不仅寻求原始信息,更追求清晰度、背景与可行动见解。然这些手动编制的报告存在局限:耗时产生(National Academies of Sciences等人,2019年)、可能呈现偏见(Castonguay,2013年;Belton与Dhami,2020年)、事实错误(Sun等人,2024年),且因需处理信息量巨大而受限(Doggette等人,2020年;Young,2019年)。情报分析师花费大量时间筛选庞大复杂数据源(Golson与Ferraro,2018年;Council等人,2011年)(如社交媒体谣言传播、新闻爆发、背景统计数据、领域专家意见等),读者常苦于信息过密或不够全面。鉴于信息量巨大,分析师难以进行深度分析与批判性思考以制定战略问题并生成见解。我们假设自动态势报告生成可弥合阅读与撰写情报信息间的差距。然现有摘要方法(Fabbri等人,2019年;Abdi等人,2017年;Li等人,2014年)生成纯文本,未提供细节、结构及高层战略信息以支持下游消费者决策。尤其当前基于大语言模型的方法(如GPT-4/ChatGPT(OpenAI,2021年))可能因未实时更新信息且缺乏事实核查机制而无法回答或错误回答用户问题(例如表1)。
表1:基于GPT-4的ChatGPT无法生成态势报告,因其对实时事件的认知存在局限。相较之下,SmartBook能够生成及时、多源且可信的应答。
为建立自动生成态势报告的基础,开展形成性研究(见§2.1.1)以把握情报分析师对AI驱动系统的期望。研究发现表明分析师对AI辅助持开放态度,寻求AI操作透明性,且对控制系统欲望各异。为理解态势报告编制过程,通过协作设计会话(见§2.1.2)增强初始研究结果,旨在确定实用设计策略与建议,尤其关注人类情报分析师如何导航、研究与撰写报告。高层级上,我们推断系统界面须在视觉上对齐分析师顺序思维过程,提供信息流透明度以建立信任,并使分析师对AI工具流程拥有一定控制权。这些结论由此指导了自动化态势报告生成的设计策略。
基于形成性研究与协作设计所奠定的基础,提出智能书(SmartBook)——一个旨在辅助编写态势报告的人类分析师的框架。智能书从多源摄取数据以生成信息定期更新的综合报告。人类分析师通常基于自身对态势的理解提出问题以获取信息。然这些问题可能静态或过于模糊,并随态势快速演变而过时。相较之下,智能书自动发现对态势分析重要的问题并收集突出信息以生成报告。针对重大事件的所有问题,报告包含源自相关主张的战术信息摘要,并附局部背景及源新闻文章链接。智能书以映射当前情报分析师工作流的方式构建数据——将事件分解为时间线、章节及基于问题的部分。每部分含基于查询的接地气摘要及其相关主张。此直观结构便于阅读与写作时更易吸收信息。采用以人为本的设计方法,我们的目标是增强而非取代人类分析师能力。图1展示智能书针对乌俄危机的示例,呈现时间跨度、章节及对应部分的结构化层级。
图1. 智能书针对乌俄危机的示例图。智能书按时间线组织,以两周为时间跨度包含章节与对应部分。部分标题为战略问题,每部分内容由摘要及相关主张链接组成,其中事实证据与知识要素均被高亮。斜体实体与事件(构成关联知识要素)分别以红色与蓝色高亮。
在对智能书的综合评估中,我们开展两项互补研究:效用研究(§3.1)评估可用性与交互,内容评审(§3.2)检验文本摘要质量。涉及情报分析师与决策者的用户研究聚焦关键研究问题,探索智能书在态势报告生成中的可用性、直观性与有效性。参与者参与半结构化访谈与研究后问卷,反思系统使用体验。内容评审通过评估智能书生成报告的可读性、连贯性与相关性予以补充,包括由专家分析师修订摘要以符合其可接受标准的编辑研究。此过程主要目标为评估将智能书用作创建态势报告初步草稿工具的可行性。结果表明智能书生成内容大多准确,仅需少量编辑修正部分事实错误。然编辑过程大部分精力集中于添加证据支持摘要。编辑研究结果提示,尽管智能书提供坚实基础,其显著受益于人工优化。本工作贡献如下:
• 一项综合形成性研究与协作设计过程,用于识别指导自动生成态势报告的设计策略。
• 智能书(SmartBook):一个从多源生成全面最新态势报告并以直观用户友好方式呈现的自动化框架。其识别关键战略问题,确保下游读者获得针对性、相关且证据扎实的信息以辅助决策过程。
• 一项涉及情报分析师与决策者的全面效用评估,探究系统可用性。
• 一项内容评审用于评定生成信息质量,辅以编辑研究理解智能书生产态势报告初步草稿的可行性。
SmartBook(一种用于生成态势报告的AI驱动系统)的开发遵循迭代式以人为本的设计方法。初始阶段侧重于设计和开发后端工作流程以及初步前端界面,并包含多个评估阶段。在此过程中,向政府和私营部门的利益相关者进行了多次演示,获得了宝贵的反馈。第二阶段通过形成性研究和协作设计研究让情报分析师和决策者参与进来,以更好地了解他们的需求和期望。形成性研究阶段(§2.1.1)涉及半结构化访谈,以收集用户的见解,包括对AI系统期望的详细分析。随后,协作设计阶段(§2.1.2)将用户和开发者聚集在一起,以完善和验证初始设计概念。通过互动环节,参与者对原型功能提供了实时反馈,以获取AI辅助报告生成的精确需求。这些努力的成果是一套设计策略,确保SmartBook采用以用户为中心的设计,服务于情报分析师的实际需求。
形成性研究旨在收集情报分析师对AI驱动系统的普遍需求和期望。该研究针对十名具有政府和军事角色经验的情报分析师进行(招募细节见补充材料§4.1)。在两周的时间内,对这些分析师进行了半结构化访谈,以考察他们对AI在专业环境中使用的理解、观点和建议。该研究突出了与分析师对AI辅助创作工具的看法和期望相关的新兴主题,简要描述如下:
• 将技术视为增强人类能力的手段:绝大多数(10人中的9人)强调AI在增强其能力方面的关键作用,这些工具不仅被视为流程加速器,而且是通过提高研究效率、激发想法和提升信息清晰度来丰富其工作的基本要素。这种观点与媒体将这些技术简单描述为人类努力的替代品形成对比。
• 像信任和依赖人类一样信任和依赖机器:大多数参与者(10人中的8人)表现出将类似人类的信任和可靠性品质赋予AI系统的倾向。信任AI的标准与人类互动的标准非常相似:提供可靠信息的能力、推理的透明度以及基于可验证事实的基础。有趣的是,分析师并未对AI设定比人类同事更高的标准。这种信任和可靠性标准的对等性表明,参与者将AI视为平等的协作伙伴,依据与人类团队成员相同的理由评估其能力和可信度。
• 训练和指导AI:我们的研究发现情报分析师在他们在培训和指导AI系统方面的角色观点上存在分歧。十名参与者中有四人主张对AI拥有实质性控制权,强调需要一个交互式系统,允许他们影响从信息源选择到报告叙事塑造的一切。相反,大多数人(十人中的六人)倾向于更放手的方法,强调态势报告的创建遵循适合AI实施的完善、标准化程序。他们将AI参与视为日常监督的延伸,类似于审阅初级同事的工作。
为了获得对情报分析过程和生成态势报告的操作性理解,我们通过与十名分析师的后续协作设计会议,扩展了形成性研究(§2.1.1)中确定的设计机会。目标是获取用户关于他们作为情报分析师如何导航、研究和撰写态势报告的具体设计策略和建议。
我们与分析师进行了研究会议,每次会议包括使用故事板进行工作流程审查和通过模拟报告练习进行动手培训。在我们的研究中,参与者使用一个低保真故事板(如图2所示)进行互动,每个面板描绘了态势报告创建的不同阶段。参与者的任务是详细描述每个故事板面板,以确保对所描绘场景和工作流程的理解。参与者使用样本情境模拟每个故事板步骤以获得实际工作流程经验,并被建议利用多样化的资源,包括如Google和Bing等网络搜索引擎,以及如ChatGPT(Achiam等人,2023年)等大语言模型(LLM)来完成任务。 协作设计会议的数据分析显示了三个主题:提升分析效率、AI系统透明度和定制灵活性。参与者强调需要反映其心智模型的界面,以减轻认知负荷,使他们能够专注于战略方面。他们非常重视理解AI系统的底层逻辑以建立信任,倾向于采用透明的方法和可追溯的数据源来验证自动化输出的可信度。此外,用户表达了对支持不同分析风格和复杂性、并能整合来自不同来源的信息以提供全面分析的工具的渴望。
图2. 与情报分析师进行协作设计会议时使用的故事板。
根据上述形成性研究和协作设计的发现,我们确定了以下设计策略:
• DS1:鉴于对减轻认知负荷和提升分析效率的重视,系统将设计一个能反映情报分析师数据分析和报告生成自然过程的界面。
• DS2:为了提高效率,系统将集成功能以自动化耗时任务,如问题策划和初步研究,从而减少分析师的手动工作量,使其更能专注于战略分析和决策。
• DS3:设计将满足对信任和可靠性的需求,清晰解释系统的数据处理算法和标准。这包括透明的数据溯源、在报告中提供参考文献,以及使用户能够轻松理解和验证系统结论的工具。该设计还将通过随时间推移一致且经过验证的性能来促进渐进式信任建立。
• DS4:针对定制化和灵活性的主题,系统将提供高度的适应性,以适应各种分析风格和报告详细程度。它将包括调整分析深度、关注特定数据集以及无缝集成各种数据源的功能。
图3. SmartBook前端界面截图。在给定情境下,用户可以导航时间线(F1)、探索与事件相关的战略问题(F2)、阅读给定战略问题的总体摘要(F3)、控制信息的深度和长度(F4)、调查摘要中的所有主张(F5)、追踪每个主张到相应的摘要片段(F6)、调查源元数据(F7)以及阅读提取主张的上下文(F8)。
图4. 构建SmartBook的后端工作流程。给定对应特定时间线的文章,该图展示了获取章节、其章节标题及相应章节内容的过程。
上述四项设计策略助力塑造了SmartBook——一个为态势报告生成提供人工智能辅助的系统,旨在为分析师在处理新兴事件的时效性信息需求时提供可基于其开展工作的初版报告。SmartBook包含:1) 一个直观的用户界面(如图3所示),其设计策略源自§2.1.2;2) 一个后端框架(如图4所示),当给定来自各类新闻源的文件集合时,它能自动生成态势报告。
自动态势报告被组织成连贯的、按时间顺序排列的时间线,每条时间线跨度两周,以增强对事件发展的跟踪与理解。在这些时间线内,通过聚类新闻文章识别主要事件,形成后续章节的基础(见§2.2.1)。为引导详细的章节分析,我们采用了一种逻辑结构,以战略问题的形式自动生成章节标题,涵盖每个主要事件的各个方面(细节见§2.2.2)。SmartBook通过精准定位新闻文章中的相关主张(见§2.2.3),从战略视角生成内容以回应这些问题。每个章节包含聚焦查询的摘要以回答战略问题,提供事件背景与影响的全面视图(见§2.2.4)。这些摘要包含引文链接,便于专家进行事实核查与交叉验证。
SmartBook为效率而设计,对已有训练数据的任务(如事件标题生成、重复问题检测和主张提取)利用较小模型(Liu等人,2019年;Lewis等人,2020年)。相反,对于更复杂的任务——例如生成带引用的长文本摘要或识别战略问题,我们采用大语言模型(OpenAI,2021年;Achiam等人,2023年)。本节描述SmartBook内的各个组件,并强调SmartBook设计各个方面对用户(即情报分析师)和最终SmartBook报告接收者(即决策者,他们既是信息需求的发起者也是下游读者)的优势。
态势报告覆盖相当长时期的事件进展。因此,以时间线形式(图3中的F1)组织此类报告是有益的,这支持无缝更新报告(Ma等人,2023年)以纳入新事件,并有助于促进(Singh等人,2016年)用户跟踪和理解情境背景(基于DS1)。时间线通过按时间顺序组织事件并突出因果关系,辅助情报分析师理解事件进展并预测未来趋势。对于读者,尤其是不太熟悉该主题的读者,时间线提供了视觉指南,便于掌握场景中事件的顺序和重要性。我们的自动态势报告采用时间线以提供事件发展的连贯、时序化表征(DS1, DS2)。
在每个时间跨度内,首先使用基于词频-逆文档频率(TF-IDF)得分(Sparck Jones,1972年)的凝聚层次聚类算法(Jain和Dubes,1988年),将期间内的每日新闻摘要聚类成主要事件组,从而识别主要事件。最终,我们得到新闻片段簇,每个簇提供对一个主要事件的聚焦视图。然而,由于新闻摘要片段细节凝练,我们通过扩展新闻语料库来提升每个事件簇的全面性,如下所述。首先,为创建SmartBook的章节名称并将其用于额外新闻文章检索,为每个事件簇生成一个简洁标题。为此,我们利用一个基于序列到序列转换器(Vaswani等人,2017年)的语言模型BART(Lewis等人,2020年),该模型将事件簇内所有新闻片段的标题和文本拼接作为输入,并生成一个简短的事件标题。我们使用了在NewsHead数据集(Gu等人,2020年)上训练的模型来生成多文档标题。该数据集中,每个簇包含最多五篇新闻文章,一个人群源标题(最多35个字符)描述了该簇的主要信息。然后,我们使用这些章节名称作为查询,通过谷歌新闻检索额外的相关新闻文章。
态势报告应具有逻辑结构和描述性的章节标题(图3中的F2),以便情报分析师清晰且便捷地获取信息(DS2)。SmartBook不仅描述每个章节的事件细节,还旨在呈现支持决策和政策规划的战略见解。为引导此类详细分析,我们通过自动生成与每个主要事件相关的战略问题形式的章节标题来纳入逻辑结构。这些问题涵盖有深度的细节,如事件中行动背后的动机及其潜在的未来后果。
近期工作(Sharma,2021年;Wang等人,2022a年)表明,与主要生成设计用于简短具体答案的问题的现有方法(Murakhovs’ka等人,2022年;Du等人,2017年)相比,大语言模型(LLM)能够生成全面的、自然的问题,这些问题需要长文本且信息丰富的答案。本工作中,我们指导大语言模型(GPT-4)生成关于特定事件的战略问题,使用来自事件簇的新闻文章来锚定上下文并减少模型产生的幻觉(Ji等人,[n.d.];Maynez等人,2020年)。为确保生成问题的多样性,我们使用核采样(Holtzman等人,2019年)对多组问题进行采样。我们的分析显示,问题可能偶尔在不同集合间重复,如图4所示(重复项以蓝色高亮)。为解决此问题,使用在Quora重复问题对数据集上训练的RoBERTa-large模型(Liu等人,2019年)执行问题去重,从而将集合合并为与事件相关的单一且多样化的战略问题集合。
鉴于情报分析师工作的高风险性质及时间有限,他们需要能快速识别文档中关键信息的系统(DS2)。这使他们能专注于紧急事务,而无需筛选无关数据。因此,自动态势报告生成应能识别和提取跨多个文档中最与场景相关且至关重要的信息(图3中的F5)。态势报告读者受益于信息显著性,因为他们能获得简洁、相关的态势概览。需要突出要点,以增强可读性和清晰度。此外,我们还呈现每个新闻源的偏见(取自AllSides),以帮助分析师从不同角度考量所呈现的信息。
为向读者提供对事件背景的全面理解,需要从源文档(即新闻文章)中搜寻不同的主张和假设,以帮助解释情境(Toniolo等人,2023年)。我们采用问答(QA)方式来识别与给定战略问题相关的主张,这得益于定向查询能够系统地从新闻文章中提取相关主张的能力,如近期研究所示(Reddy等人,2022b年,a年)。我们的QA流水线使用一个基于转换器的RoBERTa-large编码器模型(Liu等人,2019年),该模型已在SQuAD 2.0(Rajpurkar等人,2018年)和自然问题(Kwiatkowski等人,2019年)上训练。该模型将分割成片段的新闻语料库连同战略问题作为输入,并输出对这些问题的答案提取。包含这些答案的相应句子被视为提取的主张。然而,高置信度误报的风险(Chakravarti和Sil,2021年)使得有必要对这些答案进行验证(Reddy等人,2020年;Zhang等人,2021年)。为此,利用一个答案句子选择模型(Garg等人,2020年)来根据战略问题验证每个上下文。该模型是一个以RoBERTa-large为骨干的二元分类器,在自然问题(Kwiatkowski等人,2019年)和WikiQA(Yang等人,2015年)等数据集上训练,并输出范围从0(不正确)到1(正确)的验证分数,用于选择前5个最相关的上下文进行摘要生成。
考虑到基于大语言模型(LLM)的摘要中的幻觉问题(Ji等人,2023年;Li等人,2023a年;Bang等人,2023年),对于态势报告生成而言,事实性远重于创造性。可靠的态势报告必须基于可验证的来源以确保可信度(DS3)。这支持分析师得出稳健、基于证据的结论,而嵌入式链接为希望深入研究的读者提供了跳板(图3中的F6、F7、F8)。此外,我们提供不同详细程度的摘要——简版(2-3句)、标准版(4-6句)和扩展版(2段)——以满足不同读者偏好(图3中的F4)(DS4)。
使用为每个章节获取的战略问题作为章节标题,我们纳入聚焦查询的摘要生成来生成每个章节的内容。基于相关主张上下文(图3中的F3)为SmartBook中的每个章节生成一个简洁摘要。近期工作(Goyal等人,2022年;Bhaskar等人,2022年;Reddy等人,2022c年)表明,人类偏好基于提示的大语言模型(Brown等人,2020年;Chowdhery等人,2022年)生成的摘要,胜过在文章-摘要对上微调的模型(Lewis等人,2020年;Zhang等人,2020年;Liu等人,2022年),原因在于更好的可控性和更容易扩展到新场景。对于摘要生成,将前5个最相关的上下文(来自§2.2.3)和指令输入大语言模型(GPT-4),指令要求其根据给定的战略问题进行摘要并包含引用。这种方法不仅通过基于主张上下文有助于保持准确性,还通过允许对照引用来验证而增强了摘要的可信度。
本研究探索超视距空战仿真模拟,重点聚焦涉及自主智能体的二对二作战场景。超视距空战的交战阶段呈现复杂且不可预测的态势,因其难以预判敌方战机行为与战术决策结果,尤其在多智能体环境中更为凸显。深度强化学习技术作为一种前景广阔的解决方案,能使智能体从动态环境中自主学习。据战斗机飞行员确认,集体态势感知(即理解友军与敌方的空间分布及方位)对执行协同战术机动至关重要。本研究的主要贡献在于开发了AsaGym库——专为超视距场景下基于深度强化学习的战斗机智能体开发与训练而设计的工具库。通过案例研究展示其应用价值:采用基于集体态势感知的奖励函数促进协同作战,并比较不同深度强化学习算法以评估其培育协作行为的能力。研究成果凸显了深度强化学习在应对现代空战复杂性方面的潜力,为多智能体超视距场景下发展更具适应性与实效性的战术提供支持。
空战是复杂动态的作战场景,要求娴熟的飞行员快速决策以获取战术优势[1]。超视距空战特指飞行员无法目视敌机距离范围内发生的交战行动[2][3]。虽然部分空战仍发生在视距内,但多数交战始于超视距阶段。此阶段通常最为关键,因其可为后续战斗阶段创造优势或制造困难。飞行员面临的核心挑战在于机动规划,这体现了其战术思维能力并决定交战结果[4]。
超视距空战的计算机仿真能复现多样态势,助力测试新战术、传感器与武器系统[5]。这些仿真的最大难点在于模拟飞行员在全战斗阶段的复杂行为。这些决策包括适应新态势、与友军协同执行策略以及精准把握导弹发射时机。
本研究探索自主智能体学习超视距交战机动的能力。交战涉及操纵战机获取对敌优势,即将敌方定位在己方导弹有效射程(称为武器交战区)内,同时确保自身处于敌方武器交战区外[6][7]。当存在多个敌方目标时,交战阶段复杂性显著增加。
强化学习技术是该问题的前瞻性解决方案,它使自主智能体能从挑战性经验中学习。强化学习是一种机器学习方法,自主智能体通过与环境交互学习优化决策。智能体因其行动获得奖励或惩处,并随时间调整策略以最大化累积奖励[8]。深度强化学习是强化学习的进阶形式,利用深度神经网络管理复杂环境,使智能体能在动态不确定条件下(如超视距空战)做出决策[9]。
在此背景下,现有空战仿真环境常缺乏模块化设计、多智能体深度强化学习实验支持或融入作战洞察(如友军与敌机空间协同)的机制。
因此,本研究的主要贡献包括:
• 开发AsaGym库——用于超视距空战中基于深度强化学习的自主战斗机智能体仿真与训练,并通过案例研究展示其在使用促进协同与态势感知的奖励设计中的应用。
此外,提供以下具体贡献:
• 设计面向任务的奖励函数,基于友军与敌方的空间关系激励智能体协作行为;
• 融入巴西空军战斗机飞行员作为领域专家提供的作战知识,其强调空间感知对超视距空战协同机动的重要性;
• 对四种先进深度强化学习算法——近端策略优化、软演员-评论家、双延迟深度确定性策略梯度以及优势演员-评论家——在模拟超视距空战场景交战阶段的应用进行比较评估。
本研究的后续结构如下:第二章概述相关工作,重点评述深度强化学习在超视距空战仿真中的既往研究;第三章详述方法论,包括用于表征超视距空战交战阶段的深度强化学习模型设计,以及用于训练评估的实验配置;第四章讨论实验成果与分析,深入解析智能体在不同场景下的性能表现;最终,第五章总结核心发现并展望未来研究方向。
本文提出一种将基于模型工程中的马可夫“故障诊断”应用于揭示复杂概率性任务级仿真中因果关系的细微差别的方法。该方案旨在应对“马赛克战争”(Mosaic Warfare)场景分析所引入的挑战。马赛克战争指将众多作战平台集成为更庞大的力量包,以利用复杂性并将其转化为非对称优势。随着力量与技术的层级叠加形成复杂的系统之系统,马赛克战争对任务级虚拟实验的分析提出了挑战。随着复杂性增长,个体贡献的重要性在宏观尺度上愈发难以辨识。研究提出一种提炼该复杂性的方法,其通过数学方式将平台网络与相关数据向量相链接,超越了单平台分析范畴。每个向量描述任务中的一种状态或情境。借此,随着状态间连接与转换揭示场景内杀伤网脆弱性出现的具体时刻,新的分析方法变得可行。在任务范畴内,脆弱性指负面事件,例如:资产损失、传感器探测失败、消息未接收、或任何导致场景转向失败的事件。在当今计算机上对任务级研究直接应用马可夫分析虽不可行,但本文通过开发一种新颖可扩展的任务级数据提取、组织与聚类技术使其成为可能。本文概述了对简单虚拟任务运用这些方法进行评估的初步结果。展望未来,该方法通过直接凸显任务中的脆弱性,有助于将技术与战略研发资源聚焦于所需之处。
图6. 平台合并与分组策略。a) 位置与功能。b) 位置与通信。c) 通信与功能。
图7. 三个平台上的分组示例。可根据分析目标及对杀伤网的预期观察指标,按特征指定合并策略。
“马赛克战争”概念指将众多独立作战平台集成为更庞大的力量包,以利用复杂性并将其转化为非对称优势(DARPA,2018年)。太空通过支持并增强地面力量设计,使其能以革新能力的新方式连接与协作,在该战略中扮演关键角色。在任务级仿真尺度上,这些连接创造了复杂的交互网络,难以解析为特定平台、技术或时刻的可行动性能信息。当前方法通常利用任务结束时记录的高度平均化的性能指标(Bernal,2020年)。这能捕捉总体性能趋势,但无法解释平台交互网络中的因果关系,而该关系有助于聚焦技术与战略研发努力。例如,一项新技术可能在杀伤网某区域提升20%性能,却在另一区域降低20%性能。最终性能指标几乎无变化,但更精细地剖析结果能更好理解该技术对任务的影响,并为针对性能退化区域开展额外研发提供依据。
在兵棋推演仿真领域,AFSIM软件作为虚拟试验场,用于模拟大量交互协作智能体的任务(West & Birkmire,2019年)。这些智能体以其物理实体的“数字孪生”形式呈现,具有不同保真度(如机载预警与控制(AWACS)系统、防空导弹(SAM)阵地、无人机及卫星)。在软件内,分析人员通过集结并控制这些智能体来模拟更宏大的目标场景(可包含对抗性交战)。这些系统常被用于模拟从始至终的杀伤网及其中断,以消除某些威胁。可添加太空层直接测试并比较其对任务性能的影响。然尽管该软件能执行极度复杂的任务,美国国防部(DoD)、工业界与学术界正积极研究对这些任务进行更全面分析的方法。场景结果常被简化为带误差线的柱状图,因为海量可用数据难以打包呈现以供分析人员理解或决策。尽管如此,AFSIM作为任务级研究和技术测试的常用测试平台,因属政府所有、开源且非专利,便于防务界共享成果与结论。
在AFSIM等任务级建模框架内,仿真尺度常要求模型降低复杂度以实时生成结果。在一项模型简化示例中,许多物理复杂交互(如武器命中目标)通过概率判定(图1)。该概率细节源自外部实验或高保真仿真(West & Birkmire,2019年)。例如,对平台X重复进行武器A的物理测试,以确定武器A针对平台X在各种独立设计变量下的杀伤概率。测试完成后,结果被汇入任务级仿真所用的杀伤概率表。或者,概率可能来自无实体或数字原型的概念技术的项目需求。此种情况下,概率将根据所考量技术的所需能力设定。这使得在详细工程开发前,能测试理论技术对任务结果的影响。
图1. 通过概率建模的任务级物理交互样本,基于结果生成分支化未来。
这种由任务级复杂性所需的概率驱动格式,为探索技术变革影响提供了新途径。每次概率抽取均在仿真路径中形成一个分叉。更优的技术或战略可能在更关键时刻影响该分叉转向更佳路径。在分析中利用此特性,将对技术影响产生更细致的洞察,尤其在任务复杂性增加、个体贡献重要性在宏观尺度难以辨识时。仿真路径的偏差亦可能源于任务参与者做出不同决策或行动,而非仅限物理近似概率抽取。AFSIM软件具备表征此类结果多样性的数学基础,但常被视为需克服的障碍甚或被忽略。通过利用基于模型的工程(MBE)、机器学习与统计学概念,有机会更好利用AFSIM的分支特性以开展更具洞察力的分析。该分析源于能阐明特定行动在何时、何地、如何、为何及以何种概率导致特定结果的技术。
通过对任务进行充分采样,所有合理可能的状态序列均被识别。将状态转移矩阵打包为马尔可夫链,可将信息呈现为描述任何给定时刻所有可能未来的状态连接网络。若对两种技术或策略进行仿真,则会生成两个不同的马尔可夫链并可进行比较。只要状态定义保持统一,这便提供了详细探索新技术影响之处的机会。请参见图3中对两个杀伤网系统的比较。为简化起见,马尔可夫链的起始状态及成功与失败的终止状态均被清晰标识。在此比较中,改进后的系统改变了状态2的结果概率,这直接影响了任务轨迹并确保了更高的成功几率。在此简化示例中,状态2代表一个关键脆弱点,若出现错误结果将导致杀伤网失效。此项比较系2027年二期阶段计划的目标产出。在此,Infinity实验室提出了若干与用状态向量表示任务级仿真相关的挑战,并提出了在实现马尔可夫有向图最终比较的进程中克服这些挑战的方法。
图3. 通过马尔可夫链比较两种技术。此二期阶段目标产出凸显了技术提升成功几率的具体时刻。
近年来,以强化学习(Reinforcement Learning, RL)为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理与对齐性能,特别是在理解人类意图、遵循用户指令以及增强推理能力方面。尽管已有一些综述工作对基于RL增强的LLM进行了梳理,但它们的研究范围通常有限,未能系统总结RL在LLM全生命周期中的作用。本文系统回顾了RL赋能LLM的理论与实践进展,尤其关注“可验证奖励的强化学习”(Reinforcement Learning with Verifiable Rewards, RLVR)。首先,我们简要介绍RL的基本理论。其次,我们详细探讨RL在LLM生命周期各阶段(包括预训练、对齐微调以及强化推理)的应用策略。特别地,我们强调,RL方法在“强化推理”阶段是推动模型推理能力逼近极限的关键动力。随后,我们整理了当前用于RL微调的现有数据集与评测基准,涵盖人工标注数据集、AI辅助的偏好数据以及程序验证类语料。接着,我们回顾了主流的开源工具与训练框架,为后续研究提供了清晰的实践参考。最后,我们分析了RL增强LLM领域面临的未来挑战与发展趋势。本文旨在向研究人员和实践者呈现RL与LLM交叉领域的最新进展与前沿趋势,以期推动更智能、更具泛化能力与更安全的LLM演进。
诸如 ChatGPT [126] 等大语言模型(Large Language Models, LLMs)近年来迅速兴起,并在通用对话 [9]、代码生成 [105]、数学推理 [40] 等多种任务中展现出卓越性能,逐渐成为交互式人工智能系统的重要基石 [20, 21, 89, 98, 205, 206]。尽管 LLM 拥有广泛的泛化能力,但当前模型仍存在关键缺陷:它们往往难以可靠地捕捉细微的人类意图,并可能生成具有误导性或不安全的输出 [11, 14, 43, 81, 158, 185]。此外,若干最新研究 [65, 123, 151] 指出,LLM 的推理能力依然存在显著不足。因此,如何有效地将 LLM 的生成能力与人类偏好、价值观及具体任务需求对齐,并提升其解决复杂问题的推理能力,已成为当前 LLM 研究的重大挑战之一。
为应对这一挑战,强化学习(Reinforcement Learning, RL)被引入作为一种强有力的框架,通过交互式反馈与奖励信号直接优化模型行为。表1展示了典型模型在应用 RL 训练后,相较基线模型的性能提升情况。自 Ouyang 等人 [129] 首次提出“人类反馈强化学习”(Reinforcement Learning from Human Feedback, RLHF)以来,基于 RL 的微调已经成为提升 LLM 与人类指令和偏好对齐的核心方法。通过利用人类评估反馈或学习到的奖励模型,RLHF 使模型能够迭代地调整输出,使其更加符合人类偏好与需求,超越了单纯监督训练的效果。
在 RLHF 在对齐任务中取得成功的基础上,研究者们近来也开始探索利用 RL 范式增强推理能力。值得注意的是,自 2024 年起,一系列先进 LLM 借助推理时(test-time)或后训练(post-training)的 RL 技术,在复杂推理任务(如数学与编程)上表现出显著提升。典型代表包括 OpenAI 的 o1 系统 [70]、Anthropic 的 Claude 3.7/4 [3]、DeepSeek R1 [48]、Kimi K1.5 [160] 以及 Qwen 3 [204] 等,它们均在推理阶段融合了强化驱动的推理策略。这些成功案例表明,将 RL 应用于推理或后训练阶段,能够解锁超越预训练知识的新型问题求解能力。
支撑这些最新进展的核心创新是“可验证奖励的强化学习”(Reinforcement Learning with Verifiable Rewards, RLVR)[48, 87, 204]。该范式在标准 RL 循环中引入了可客观验证的自动化奖励信号,例如程序化检查或对模型输出的正确性证明。通过奖励那些能够通过严格正确性测试的输出(如代码的单元测试或数学定理验证),RLVR 直接激励模型生成可靠正确、逻辑严谨的解答。这一方法已成为推动推理能力提升的关键动力,使模型能够持续推理多步问题,直到得到可验证的正确结果。
然而,将 RL 整合进 LLM 的训练与应用过程中,仍存在若干开放性问题与局限性。首先,学界仍在争论 RLVR 是否真正拓展了 LLM 的推理能力,而不仅仅是放大了其预训练中已学到的知识 [190, 218, 235]。其次,对于不同的 RL 技术在 LLM 生命周期各阶段(从预训练、指令对齐到推理优化)的最佳应用方式,目前尚无明确共识。第三,RL 在数据构建与优化策略上仍面临实际挑战,例如如何基于人工偏好标签、AI 助手偏好或程序化奖励构建高质量奖励数据集,以及如何在策略梯度与奖励模型优化等 RL 算法之间做出合理选择,都是复杂的设计难题。最后,如何在大规模场景下高效且稳定地实施 RL 微调,而不破坏模型已有性能,依然是未解问题。
鉴于这些不足,本文旨在系统、全面地回顾 RL 增强 LLM 的最新进展,尤其聚焦自 2025 年以来快速发展的 RLVR 范式。我们希望澄清 RL 方法在整个 LLM 训练流程中的作用,以及其在推动模型对齐与推理前沿中的贡献。具体而言,本文将从以下几个维度展开深入分析与讨论:(1)RL 应用于 LLM 的理论基础;(2)RL 在不同训练阶段(初始预训练、对齐微调、推理时强化)的应用策略;(3)用于训练与评估 RL 微调 LLM 的数据集与基准;(4)支持大规模 RL 训练的最新工具与框架。通过这些维度的组织,我们期望为研究者和实践者提供清晰的领域全景,深入剖析 RL 技术(尤其是 RLVR)的成效与局限,并为未来如何利用 RL 使 LLM 更加对齐、强大与可靠提供参考路径。
近年来,大量综述工作 [8, 12, 15, 16, 51, 72, 75, 78, 80, 85, 134, 154, 169, 178, 197, 224, 239, 240, 244] 对与大语言模型相关的强化学习研究进行了回顾,并提出了不同的分类方案。然而,这些综述的研究范围往往有限。例如,一些研究 [78, 178, 239] 仅聚焦于基于 RL 的对齐技术,其分类体系主要围绕奖励模型的使用展开,而忽略了若干重要的新兴方法。尽管在 2025 年已有若干工作尝试总结推理时 RL 的研究进展 [8, 12, 80, 197, 240],但这些回顾大多不够全面,未能系统审视推理阶段强化学习的多重维度。Pternea 等人 [134] 探讨了 RL 与 LLM 的协同效应,但其分析主要局限于双向 RL–LLM 协作的视角。Zhu 等人 [244] 则专注于“简洁与自适应思维”这一狭窄领域。虽然这些综述框架各有价值,但它们往往受限于特定视角,缺乏对 RL–LLM 交互进行统一的、端到端生命周期视角的系统分析。相比之下,本文系统性地考察了 RL 在整个 LLM 训练流水线中的作用(涵盖预训练、对齐微调与推理),并提出了一个据我们所知尚未在既有研究中得到全面覆盖的组织框架。表2总结了本文与其他代表性综述相比的优劣势。
本文对 LLM 的 RL 技术进行了结构化综述,主要贡献体现在以下三方面: * 生命周期组织:我们系统覆盖了 LLM 生命周期中的全流程 RL,详细阐述了各阶段(预训练、对齐、推理强化)的目标、方法与面临的挑战。这一组织方式有助于厘清 RL 技术在 LLM 开发生命周期中的应用与优化路径。 * 聚焦先进的 RLVR 技术:本文重点分析 RLVR 的最新方法。我们深入探讨了 RLVR 的实验现象与前沿应用,研究了如何确保奖励的客观与可验证性,并讨论了可验证奖励对模型性能与对齐的促进作用,同时展示了 RLVR 在真实应用中的优势与局限。 * 资源整合:我们总结了 RL 研究中关键的数据集、评测基准与开源框架,为 LLM 中 RL 的实验、评估与实践提供参考。通过整合这些资源,我们为未来研究者提供了有价值的资料,提升 RL 驱动 LLM 研究的可复现性与透明度。
为提供组织化的路线图,图1给出了一个综合性分类法,将现有方法划分为五个分支:预训练、对齐、RLVR、数据集与基准、开源框架。如图2所示,本文围绕 LLM 的完整 RL 生命周期进行综述,特别强调可验证奖励的强化学习。总的来说,本文以生命周期为主线综合现有方法,突出 RLVR,并结合研究与应用的实践资源,形成一个系统性全景综述。
空中威胁的快速演进与扩散——包括无人驾驶航空系统(UAS)、高超音速武器及其他新兴平台——对现代战争构成重大挑战。对手部署这些系统进行侦察、目标定位与直接打击,常以摧毁防空反导(AMD)传感器以夺取制空权为目标。尽管整体威胁数据丰富,但具体型号的细节信息仍有限且快速过时。依赖全面数据集与有限领域专家(SME)资源的传统建模与仿真(M&S)技术难以跟上这些动态威胁的步伐。因此,美国必须开发敏捷解决方案,在不完整数据条件下分析大量演进中的威胁。本文探索将先进M&S的自动数据生成与稀疏真实样本相结合的方法,以训练人工智能(AI)评估复杂威胁空间中的选项。本文研究AI技术如何推断缺失特征并构建反映流动战术的自适应作战模型。本文方法的核心是“分配、韧性及生存性传感器试验台”(STARS),该开放架构平台专为仿真与评估新策略而创建。通过使AI能够在零散观测间“串联线索”并与STARS交互,本文方法可增强实时决策能力,使指挥官能优化传感器部署、优先保障关键区域并有效部署对抗措施。此外,该方法面向“美国金穹计划”(GDA)等倡议,这些倡议旨在通过AI驱动集成加强分层防御,为适应快速演变的空中威胁提供可扩展解决方案,同时保留必要的人工监督。
现代战争日益由无人驾驶航空系统(UAS)、高超音速武器等空中威胁主导,这些平台通过其速度、复杂性与适应性挑战传统防御策略。对手利用这些系统进行侦察、瞄准关键资产,并通过摧毁或致盲传感器削弱防空反导(AMD)能力。虽然威胁数据总量持续增长,但在理解特定威胁型号、其演进特性及可能由AI控制器实时决策驱动的动态作战战术方面仍存在关键空白(邦达尔,2025年)。现有情报的快速过时加剧了这些空白,使传统建模与仿真(M&S)方法显得不足。M&S平台能探索假设性防御场景与传感器交互,但通常依赖大量输入模型库与专家时间。尽管传感器网络如今每日产生太字节数据——从高分辨率雷达回波到红外图像及电子战截获信息——但新威胁型号的关键细节仍然隐藏。数据量造成了饱和问题:重要信号湮没于噪声中,领域专家(SME)团队无法手动筛选每个字节,对手的创新由此漏检。因此,情报中心难以在数据分析工作量与快速更新威胁模型的需求间取得平衡。矛盾的是,在这座数据大山中,分析师也因对每个独立威胁的认知匮乏而受阻。由于UAS配置众多且瞬变,无法为每个型号建立精确定义模型。当攻击者能在数周内部署改装UAS或新型高超音速方案时,标准M&S流程产生的模型在定稿前即已过时。
本文研究先进M&S与AI的集成如何增强不完整或稀疏数据环境下的威胁分析与决策。方法将AI直接嵌入高保真M&S框架,以实现数据分类与推断的自动化。提出的“分配、韧性及生存性传感器试验台”(STARS)作为本研究的代表性仿真环境。通过利用AI驱动数据压缩,将过载的传感器输出数据提炼为简明特征集,在保留潜在威胁指标的同时突出异常。在后续章节中,详述四大核心AI应用——数据压缩、合成空白填充、资源优化及对抗场景生成——并演示AI增强的M&S如何将数据饱和转化为战略优势。该工作面向“美国金穹计划”(GDA)及“关岛防御任务”等,这些构想旨在建立能利用AI实现比对手创新更快适应的分层全域防御网络(美国国防部,2025年)。本文提出的方法为防御系统适应快速演变威胁提供了一条可扩展路径,确保能有效响应而不过度依赖过时或不完整数据。通过结合自动化模拟和机器学习的优势,本文有助于开发灵活、数据高效的解决方案,使战术指挥官能够在有争议的空域保持态势感知和作战弹性。
现代大规模作战行动(LSCO)的实施方式特点在于,日益频繁和多样化地使用集成到指挥、控制、计算机、通信、情报、监视与侦察(C4IRS)系统中的无人驾驶航空器(UAV)。这些航空器是现代大规模作战行动中最重要的武器类型之一。任何掌握该技术的一方,若能处理来自战场的最新信息并将其安全传递至指挥中心,便拥有巨大优势,并有机会对旨在阻止其进一步作战行动的部队造成重大杀伤。关键在于,无人机必须通过侦察与撤退路线的选址行动具备一定程度的自我防护能力。本文阐述了在LSCO中使用无人机执行各种任务的可能性,并提供了其在以往现代武装冲突中应用的案例研究。
科学技术的强劲发展,特别是第四次工业革命的显著成就,为社会生活各领域带来了诸多变革。这一点在防务与安全领域尤为突出,该领域的作战活动效能显著提升,科技成果的应用极大地提高了部队的作战效率。现代作战行动需要使用最复杂的作战资产,以高效执行受领的任务。无人驾驶航空器的使用是现代作战行动不可或缺的环节。由于其用途广泛且具有不同的结构与作战特性,它为配备此类作战装备的部队提供了广泛的可能性。通过使用集成到C5ISR系统中的无人驾驶航空器,可在网络防护下实时掌握战场态势,这为决策者在作战行动中及时有效地指挥部队提供了可能。C5ISR是指挥、控制、计算机、通信、网络、情报、监视与侦察的缩写,是未包含网络要素的C4ISR系统的升级版(图1)。现代作战行动中使用了各类无人机,从商用无人机到向指挥中心传输数据的武装作战无人机。无人驾驶航空器在现代作战行动中的使用日益增多,尤其用于对地面目标的侦察、监视与瞄准。为使无人驾驶航空器在战斗中有效并满足现代战争的要求,必须具备某些特定特性。
图1:C5ISR系统
现代军队已日益依赖信息技术来支持任务规划与执行。随着对多域作战(MDO)研究的深入调查,常规任务行动预计将涉及网络与物理资产之间的众多交互。在未来作战空间,这些网络-物理交互预计将由作战环境的特点以及用于完成C5ISR(指挥、控制、计算机、通信、网络、情报、监视与侦察)任务的工具和技术所引入。
美国陆军C5ISR中心网络安全服务提供商(CSSP)是一个全天候运行的防御性网络行动(DCO)组织,负责保护美国国防部和美国陆军网络免受敌对网络活动侵害,并为国防部内的DCO操作员开发技术与能力。近年来,C5ISR中心CSSP一直在研究各种先进的数据可视化概念与策略,以提升网络安全分析师工作流程的速度与效率。为实现这些目标,已采用虚拟与混合现实(VR/MR)工具进行研究,探究这些媒介是否能实现DCO操作员有效的远程协作,以及立体可感知的3D数据可视化是否能使DCO操作员对其数据集获得更深入的后见之明。利用联合勤务C5I-ISR与C2(指挥与控制)集成,实现全域作战的新联合作战概念。
要成功在传统战争域中取胜,必须理解信息环境,该环境包括频谱、太空、网络域以及在其间流动的数据。信息时代的战争特征在于基于精确数据做出决策并由此取得成功。快速分析环境与对手以加速决策的能力是成功的关键。有效沟通的能力对任何现代军事行动的成功都至关重要。这适用于各军种、任务和训练计划。作战力量现在与有效的跨防务频谱的情报收集与分发协同使用,以决定任何冲突的结果。C5ISR技术有助于识别并响应事件。由人工智能与云技术驱动的现代C5ISR系统,有助于为前线人员提供关键数据。
武装部队希望在复杂、对抗性强、人口密集的城市环境以及无固定平民人口和基础设施的开放环境冲突中,获得相对于对手的决策优势。因此,C5ISR系统拥有提供必要信息的工具,以在复杂作战场景(包括空中、陆地、海上和网络空间)中实现指挥与控制行动。
图4:包括海、空、陆、网络在内的不同环境中的C5ISR
C5ISR系统集成在作战层级接收的信息,生成作战态势,管理计划、命令、报告并在各级指挥机构间分发信息。战斗态势感知是所有现代大规模作战行动的基石。C5ISR系统无缝集成来自多源多传感器的大量信息,并基于这些信息生成战场态势的总体概览,从而实现及时正确的决策。
图5:各种战斗场景中的C5ISR界面示例
C5ISR在战场上提供多种能力,可对正在进行的行动的结果产生积极影响。
C5ISR系统除其多种能力外,还具有一系列在战场上有用的功能。通过其工具,C5ISR在整个行动期间持续收集并分类数据以支持决策。它还包含用于战略决策过程的工具,以生成“战斗序列”(作战序列/命令)并产生定义要采取的行动、所有行动的时间及其活动地理区域的命令。除这些功能外,它还具有模拟和预测敌方部队可能反应的功能,并提供如何应对的建议。
图6:C5ISR无人机向地面单位提供实时反馈
人工智能的快速发展正在重新定义人机交互模式,推动系统从人类操控工具向人机协作伙伴关系转变——人类与人工智能作为近端协作伙伴共同达成卓越成果。传统人机协作将机器视为从属辅助工具,但人工智能日益增强的自主性要求建立新的协同效能范式,尤其在复杂作战环境中。本文主张将人机协作概念集成至支持"实况、虚拟与建构"范式的建模与仿真框架,该范式是国防部训练、评估与任务演练的基石。随着国防部门与工业界优先推进人工智能应用,现行建模仿真方法与实况虚拟建构体系缺乏表征人机协作动态的保真度,存在无法应对现实应用的风险。集成这些概念对提升训练质量、优化系统设计以及确保仿真互操作性标准演进以满足新兴需求至关重要。本文提出利用实况虚拟建构环境通过混合仿真探索人机协作——结合实况人机交互、虚拟场景与建构模型——同时评估高层体系架构与分布式交互仿真等标准的适应性。将人机协作集成至实况虚拟建构的建模仿真体系有望填补关键空白,为增强基于人工智能的作战行动提供更有效准备,并为推进仿真能力提供路线图。
人工智能日益广泛的应用正推动从传统人机协作向人机协作伙伴关系的转变,人类与人工智能系统作为近端伙伴协同实现共同目标。然而,必须明确区分人机团队、人机协作团队及其运作的人工智能增强环境。人工智能的加速应用显著改变着人机交互的本质。尽管历史上人机协作主要体现为人类将机器作为工具使用,但人工智能的最新进展推动了向人机协作的演进。在此范式中,人类与人工智能系统作为近端伙伴协同作战,发挥各自优势并合作达成共同目标。必须认识到人机协作代表特定形式的人机协作,其特点在于人工智能系统在团队中展现出的高度自主性与责任共担。
人类与机器可能在人工智能深度塑造的环境中运作,例如含人工智能实体的仿真系统、人工智能驱动的决策支持系统或集成人工智能的真实环境(如自主载具、智慧城市)。本文聚焦于人类与人工智能相互依赖履行角色并完成集体任务的交叉领域。尽管人类可能与各类精密程度不同的机器协作,我们关注的是能理解语境、制定决策并从经验中学习的人工智能系统,因此将其与缺乏这些认知功能的基础自动化系统或机器区分。图一阐释了各类人机交互关系,重点呈现人工智能的作用。该示意图描绘定义人机协作谱系的三个关键维度:
复杂性在于这些界限并非总是清晰,且不同类型的人机交互可能存在重叠。例如,每类交互的具体特征将因使用场景、所涉人工智能技术及预期人类参与程度而异。我们主要关注人机协作伙伴关系型协作,尤其在其所谓人工智能增强型实况、虚拟与建构环境中的影响。需理解虽然交互是协作的必要组成部分,但并非所有交互都构成协作。在协作过程中,人类与人工智能系统作为真实伙伴运作,共享目标、责任与决策权(奥尼尔、弗拉特曼、麦克尼斯与萨拉斯,2023年)。作为真实协作者的人工智能系统具有能动性及学习适应能力。因此,诸如实况虚拟建构训练等活动若期望实现人机协作,必须强调相互依赖性、互信与共识理解。在此背景下,人机协作是人类与人工智能系统间深度协作的关系,双方共同致力实现统一目标。为区分人机协作伙伴关系与其他形式的人机协作,需考量:
• 人工智能自主性层级:相较人类自主性交互,人机协作伙伴关系涉及更高水平的人工智能自主性与责任共担;
• 协作焦点:人机协作伙伴关系强调真实协作与伙伴关系,而人类自主性交互及人类监督的机器间协作更侧重人类控制与系统可靠性;
• 决策权威:在人机协作伙伴关系中,决策权威常由人类与人工智能共享,其他模式中人类保留主导控制权;
• 复杂性:训练与作战环境中的人机协作伙伴关系呈现独特挑战,源于人工智能实体精密程度提升、人类与人工智能决策要素间交互作用,以及对稳健信任与协作的需求。
在人工智能增强环境中实现有效人机协作,需要深度理解人类认知、行为与社会动态,以及人工智能系统的能力局限及其对环境的影响(美国国家科学、工程与医学院,2021年)。既往团队效能研究表明:"人工智能系统要成为团队组成部分,必须具备运作中的相互依赖性及执行中的自主性"(美国国家科学、工程与医学院,2021年)(雷耶斯、丁与萨拉斯,2019年)(萨拉斯、库克与罗森,2008年)。达成此层级协作与自主性,需要精细把握人类与人工智能系统如何在动态且日益复杂的环境中有效协同。
本文提出一种创新性复合人工智能方法,整合了美国国防高级研究计划局(DARPA)的“人类数字孪生智能体编队评估与建模”(EMHAT)和“构建弹性信息生态系统”(BRIES)项目,实现对军事行动场景中智能体人工智能工作流动态的精细化建模与严谨评估。现有系统缺乏同步建模具有丰富心理人口属性与记忆表征的人类数字孪生,并评估多维性能指标的能力。复合人工智能解决方案通过专业化多智能体架构填补这一空白,为编队效能与群体层级信息弹性提供前所未有的洞察力。在多场景中部署专用认知语言智能体:EMHAT支持基于多样化人类数字孪生智能体的搜救模拟,严格测量编队流程与状态指标以提升协同效能;EMHAT实验结果表明人类数字孪生个体能力与团队导向如何影响任务绩效。BRIES技术采用多智能体架构,配备“扭曲者”(对抗场景生成)、“探测者”与“防御者”(战术评估响应)及“评估者”(因果分析)智能体以支持内容生成,随后使群体数字孪生智能体接触生成内容,测试模拟人群中的信息作战策略。BRIES系统成功建模了群体层级对不同信息策略的响应差异,揭示认知扭曲等特定群体因素如何影响内容传播行为与信息生态系统弹性。本研究提出可直接应用的复合人工智能建模与仿真框架,使指挥员与训练人员能在高风险环境部署前量化评估军事编队绩效、检验信息作战效能并优化训练方案。
现代军事行动在关键领域面临前所未有的挑战:优化人机智能体编队以提升战术效能(瓦卡罗等人,2024年;沃尔科娃等人,2025年),构建抵御对抗性信息活动的弹性防御体系。正如北约“认知战”概念所强调,未来冲突将日益把人类认知作为作战域(北约盟军转型司令部,2023年)。现有人机编队绩效建模方法难以捕捉人格特质(阿卜杜勒拉赫曼等人,2024年)、信任动态(阮等人,2025年;涂等人,2025年;麦克达夫等人,2025年)与作战效能间复杂相互作用——这些因素从决策支持到争议环境中的协同行动均决定任务成败。本文提出复合人工智能方法——整合前沿模型、智能体与工具的框架(扎哈里亚等人,2024年;沃尔科娃等人,2024年),通过两个互补用例应对这些挑战。该方法的核心是人类数字孪生智能体——整合人格特质、认知过程与行为模式的个体计算表征,能模拟虚拟环境中人类决策、情绪响应与社会互动(美国国家科学、工程与医学院,2024年)。EMHAT实现人类数字孪生智能体的搜救模拟,严格测量编队流程与状态指标以提升协同效能;BRIES技术则通过多智能体架构支持信息活动生成,并建模群体人类数字孪生行为、态度与脆弱性。通过将具有心理人口属性与记忆表征的编队及群体层级人类数字孪生整合,建模仿真框架配备严谨因果验证工具,使指挥员能在高风险环境部署前量化评估编队绩效、检验信息作战效能并优化训练方案。
当前基于前沿模型与大型语言模型驱动智能体的人类社会行为仿真方法在规模、保真度与真实验证方面存在根本局限(帕克等人,2024年;阿卜杜勒拉赫曼等人,2024年)。传统态度与观点动态建模严重依赖社交媒体数据,将分析局限特定线上群体,且缺乏社会经济与健康指标的多模态背景(沃尔科娃等人,2021年)。这些局限在满足“动态人机编队系统中人工智能作战化”(卡萨尼等人,2025年)的军事需求及开发可扩展主动解决方案时尤为突出。大型语言模型驱动智能体的最新进展显现在人类行为仿真领域的重大突破。帕克等人(2023年)开创性提出“生成式智能体”实现逼真仿真,通过记忆流与反思机制涌现社会行为。在此基础上,SOTOPIA(周等人,2024年)通过目标驱动交互评估社会智能,其最新扩展SOTOPIA-S4(周等人,2025年)提供用户友好系统支持灵活可定制的大规模社会仿真。这些进展的关键在于塑造智能体人格的能力——BIG5-CHAT(李等人,2025年)证明基于人类基础数据训练可创建与心理学框架一致且具稳定人格特质的大型语言模型。CAMEL(李等人,2023年)等附加框架展现在角色化场景中涌现的协同行为。包括AI小镇(2023年)、OASIS(汤等人,2024年)及谷歌DeepMind的Concordia(韦日涅夫采夫等人,2023年)在内的群体级系统支持数百智能体的观点动态与社会影响建模。AgentClinic(2024年)与CharacterEval(2024年)等专业框架通过社会真实性与目标达成度的复杂评估指标推进领域特异性行为建模。然而,现有军事认知安全框架(北约盟军转型司令部,2023年;北约战略传播卓越中心,2021年;菲茨帕特里克等人,2022年)仅提供战略指导却缺乏可扩展技术实现,而产业界聚焦人工智能助手而非防御关键的群体行为仿真工具(沃尔科娃等人,2024年)。当前系统无法在评估多维性能指标的同时建模具有丰富心理人口属性与记忆表征的人类数字孪生(美国国家科学、工程与医学院,2024年),这一关键空白由复合人工智能方法通过集成建模、仿真与因果评估能力予以填补。
图1. 人类数字孪生架构将智能体档案(生物特征、目标)与行为决策循环相结合,该循环通过提示与防护栏处理情境以生成行动与工具调用。记忆系统整合了语义记忆(事实)、程序性记忆(技能)与情景记忆(经历)及双向学习路径。基于外部检索增强生成的知识检索与世界状态同步实现了情境感知、人格一致的行为。
图2. 编队与群体仿真。具有核心信念、思想、通信历史与情绪反应的人类数字孪生智能体,在接触Reddit或团队通信时从其检索增强生成记忆库中检索相关条目。仿真引擎协调智能体互动(评论、思想),同时捕获测量内容信任度与分享意图的帖后调查响应,用于评估信息弹性与编队效能策略。
该方法采用多阶段流程构建人类数字孪生,以精确模拟操作环境中人类的认知、情绪与行为响应。图1所示的人类数字孪生架构整合了多个互连组件,旨在捕捉人格特质、认知过程与情境动态间的微妙相互作用。档案生成系统实施分层构建流程,综合多维度心理人口属性。采用OCEAN大五人格框架(巴里克与芒特,1991年;保诺宁与阿什顿,2021年)作为基础人格模型,生成符合正态分布的特质分数。为保持真实的特质间关系,实施了源自人格研究大规模元分析的相关矩阵。例如,高外向性分数与高开放性分数相关,而高宜人性与低神经质相关。BRIES场景中的认知扭曲分配(尤里卡与迪托马索,2005年)基于OCEAN分数加权,创建心理一致的人类数字孪生档案。采用GPT-4o(开放人工智能,2024年)作为档案生成的主要语言模型,提供包含核心人口统计与人格属性的种子数据。该模型接收包含基础OCEAN分数与衍生认知模式、含年龄职业教育水平的人口统计锚点、校准至群体分布的社会经济指标、及基于人格行为相关性(林奇等人,2025年)的行为倾向的结构化提示。
EMHAT仿真框架实例化三个专用人类数字孪生,配置作战搜救任务必备的 distinct 操作角色:医疗专家、战斗工兵与撤离运输员,每个智能体体现对任务成功至关重要的角色专属能力(黄等人,2022年)。这些角色不对称性创建了依赖关系——例如工兵独有的废墟清理能力形成了需要协同编队努力的天然瓶颈。EMHAT智能体通过集成数据流(含编队通信、可操作导航指令集与动态状态信息)保持环境感知。EMHAT智能体执行的行为包括战术信息交换、空间导航规划、任务目标优先级排序与情境数据分析——所有决策均受其配置的人格档案与动态演化的智能体间信任关系(阮等人,2025年)影响。
图2所示的BRIES群体仿真将人类数字孪生智能体部署于Reddit风格讨论帖中,使其基于配置身份自主进行社交媒体互动。当遭遇帖子与评论时,智能体使用检索增强生成从其个体向量数据库检索相关记忆,实现基于过往互动、存储思想与情绪反应的情境感知响应。智能体随后执行决策协议以点赞、点踩或撰写回复,系统实施通知机制在贡献获回应时提醒智能体,为其基于人格档案选择持续互动或战略静默提供机会。在整个互动过程中,智能体持续生成并存储校准至其身份规格的思想与情绪反应,构建影响未来行为模式的丰富记忆库。帖子互动结束后,每个智能体接受结构化帖后访谈评估其内容认知立场,包括对帖子真实性的信任度、与他人分享帖子的可能性、与亲友讨论话题的倾向及在其他社交媒体平台放大内容的意愿,从而捕获即时行为响应与反映不同人格配置如何影响信息生态动态的下游传播意图。
从仿真通信中提取社会-情绪-认知构念
BRIES与EMHAT实验均采用一套综合性人工智能驱动分析工具,自动从编队与群体通信中提取并分析社会-情绪-认知构念。这些(沃尔科娃等人,2021年)总结的分析包括:通过赞同、建议与希望表达等特定策略识别意图与情绪的同理心检测模型(西等人,2019年);评估内涵、观点、态度(拉什金等人,2016年)、跨伤害、公平、纯洁、权威与内群体五维度道德价值(格雷厄姆等人,2013年)及主观性模式(拉什金等人,2017年)的社会认知分析;以及使用基于DistilBERT的情感分析模型(桑等人,2020年)、Detoxify毒性检测(哈努与统一团队,2020年)与情绪识别(萨瓦尼,2024年)的情绪分析。
数字孪生仿真的因果研究
针对群体层级信息弹性(BRIES)与个体人类数字孪生编队(EMHAT)的数字孪生仿真因果评估采用因果分析方法评估并解释仿真结果。遵循珀尔的因果框架(珀尔,2009年;珀尔与麦肯齐,2018年),通过NOTEARS算法与CausalNex包(量子黑实验室,2020年;郑等人,2018年)利用结构方程模型发现因果结构,聚焦处理(如接种策略或编队干预)与结果(如团队绩效指标、社会-情绪-认知构念)的同时阻断处理间传入边以避免混淆效应。此外,使用EconML的因果森林进行平均处理效应估计(巴托基等人,2019年;切尔诺茹科夫等人,2016年;瓦格与阿西,2018年),从智能体流水线分析处理、结果与协变量以隔离个体处理效应。该双重方法价值显著:结构方程模型捕获心理与编队维度的复杂相互关系与级联效应——揭示说服技巧或团队动态如何在网络化响应中运作——而平均处理效应在受控情境中精确隔离直接因果影响。对BRIES群体仿真,此法可量化不同接种策略如何影响群体对抗信息攻击的弹性;对EMHAT编队仿真,则可测量特定干预(如个体能力与团队导向)如何影响人类数字孪生编队协调、通信模式与任务成功,最终规模化优化认知安全与操作层级编队绩效(沃尔科娃等人,2021年)。
使用人工智能驱动的机器智能体来增强人类认知活动展现出广阔的潜力,新的云服务也在定期发布。然而,在传统应用中快速使用这些服务需要超出普通用户技术水平的技术技能。开发者需构建或扩展应用程序以利用这些服务,这常常延迟了这些服务向用户提供的可用性。聊天机器人式的对话界面试图解决这一问题,但更倾向于简单的交互。为支持更丰富的解决方案,提出通过人与机器智能体共同构建任务相关信息来实现知识共享。具体来说,是支持多种模态和一系列具体程度的共享知识——从快速获取的流动信息到更正式定义的知识。此外,用户应能调用相关的云服务,并快速建立与这些服务相称的信任水平。通过共同构建来融合知识,可以超越当前机器智能体集成中常见的简单对话交互或定制应用程序,实现更快、更丰富的协作机制。
本文引入“人-智能体知识融合”(HAKF)作为一个概念框架,以支持多模态知识的共同构建,并支持人-智能体团队在特定任务和时间受限的问题解决活动中进行协作。具体而言,HAKF 强调了可解释人工智能对于快速建立信任的必要性,以及可讲述人工智能对于流畅知识交换的必要性。论文定义了一个名为“认知速写”(Cogni-sketch)的 HAKF 开源实例化平台,该平台支持以下实验:(1)由人类主导的、针对开源情报分析的信息觅食、意义建构和故事讲述;(2)来自机器智能体和数据源的信息融合,并与人类分析师协同工作。(1)的结果表明,用户成功完成了任务,并同时推进了多项意义建构活动。(2)的结果,重点展示了机器视觉和物体识别的融合,证明了机器智能体共同构建的知识可供人类用户使用。
通过 HAKF 和“认知速写”,展示了强大而灵活的解决方案的潜力,使得人与机器智能体之间能够开展与任务相关的问题解决活动,范围涵盖从信息收集与组织到意义建构与故事讲述。
第 2 章以文献综述的形式提供了与 HAKF 及其在意义建构中应用相关研究的背景材料,考虑了对人类用户和机器智能体都重要的一般性通信因素。第 3 章引入了 HAKF 的概念,以支持人-智能体团队集体解决问题,并指出了在任何实施中都必须支持的具体方面。同时描述了与军事利益相关者举行的一次设计思考研讨会,以及这如何帮助明确 HAKF 所需的能力。第 4 章概述了作为 HAKF 实例化的实验性“认知速写”平台。本章首先简要评估了现有的相关工具和技术,然后定义了“认知速写”的范围、它如何支持 HAKF 所需的能力以及用于定制和集成机器智能体的各种扩展点。第 5 章重点关注机器智能体及其基于自身处理或分析能力做出与任务相关贡献的能力。这些贡献大体上与可解释性流程的示例相一致,并通过试点评估和一些对话解释来表达,以展示多种行为。第 6 章将重点转向人类用户通过可讲述性流程成功进行意义建构的能力,以及以对人类用户在视觉和认知上有用的形式创建相关材料。与一名情报分析师进行的试点练习为后续正式实验的设计和执行提供了信息,该实验旨在测量 12 名人类参与者的意义建构行为和结果。对试点和实验的结果进行了分析和报告。最后,第 7 章总结了各项贡献,呈现了 HAKF 研究活动的简要时间线,总结了一些额外的示例用例,并提出了未来潜在的扩展和进一步的研究领域。它还强调了大型语言模型技术的最新进展,这些进展高度相关但未在本论文中涵盖,因为它们是在所报告的研究完成之后出现的。论文还有三个附录:附录 A 包含了关于“认知速写”平台的额外细节以及代码、文档和视频演示等资源的链接。附录 B 包含了从第 6.4 章描述的人类意义建构实验中获得的完整数据集,以及对 12 名参与者在实验期间创建的制品的定性评估。附录 C 包含了一些与第 3 章第 3.2 节报告的设计思考研讨会相关的额外有用信息。
摘要—— 大语言模型(LLM)与智能体(Agent)在数据分析中的应用(即 LLM/Agent-as-Data-Analyst)已在学术界与工业界展现出显著影响。与传统的基于规则或小模型的方法相比,(具备智能体特性的)LLM 能够支持复杂数据理解、自然语言交互、语义分析功能,以及自主的数据管道编排。技术演进进一步提炼出智能数据分析智能体的五大关键设计目标,即语义感知设计、模态融合集成、自主管道、工具增强工作流,以及开放世界任务支持。从模态视角来看,我们回顾了基于 LLM 的技术在以下方面的应用:(i)结构化数据(如关系数据的表格问答与图数据的 NL2GQL),(ii)半结构化数据(如标记语言理解与半结构化表格建模),(iii)非结构化数据(如图表理解、文档理解、编程语言漏洞检测),以及(iv)异构数据(如数据湖的数据检索与模态对齐)。最后,我们总结了尚存的挑战,并提出若干见解与实践方向,以推动基于 LLM/智能体的数据分析发展。 关键词—— LLM,智能体,数据分析,结构化数据,半结构化数据,非结构化数据,异构数据
数据分析(广义地定义为对数据进行检查、转换与建模,以发现有用信息并支持决策的过程)是现代科学研究与商业智能的基石之一 [70, 13, 113, 282]。它覆盖从结构化数据库、半结构化表格到非结构化文档与视频等多种数据模态,并支撑着金融、医疗、工程、社会科学等领域的关键应用 [162, 23, 27]。
传统的数据分析流水线虽能有效提取信息与统计模式,但往往需要大量领域知识、繁重的人工特征工程,以及多种专用工具的集成 [244]。随着数据规模、复杂度与异质性不断增长 [130],这些限制愈发凸显,构成了传统数据分析的内在薄弱环节。 L1:人工式开发。 最耗力的挑战在于传统工作流依赖僵硬的、手工设计的流水线,要求领域专家事先明确各个建模步骤 [286, 287, 280]。在大型企业数据库中,客户、订单、支付、发货、商品等分别以独立数据表存储且各含数十个属性,即便是回答诸如“上个季度高级会员的平均配送时长是多少?”这样看似简单的业务查询,也可能迫使分析人员选择关联表、定位对应属性、处理复杂的多表连接、施加领域约束并统一时间戳字段。对于文档问答,在包含多样元素(如文本块、表格、图表、图像)的长文档中检索相关信息通常需要分析师逐页审阅并概括内容,这一过程高度依赖人力。此类手工流水线不仅构建耗时,而且当数据特性或分析目标变化时难以适配。 L2:硬编码的工具依赖。 现有数据分析系统通常内置一组与特定工作流紧耦合的工具(如可视化看板、统计包或机器学习模块 [5]),这与底层数据类型的复杂性相关。例如,从知识图谱中抽取统计信息并进一步做线性回归建模时,分析人员需先撰写 GQL 查询并调用图数据库内置 API 获取数据,随后再借助机器学习库(如 scikit-learn、PyTorch)开展分析。相对地,3D 模型分析则更依赖领域特定知识与专用系统(如 AutoCAD、PyMOL [4])。这类分析常受限于这些系统内嵌的功能,要求缺乏编程能力的分析师跨系统集成多个工具才能完成单一任务。异构系统的耦合不仅提高了分析流程的复杂度与开销,也妨碍了可扩展性并使其难以融入更广泛的分析工作流。 L3:同质化的模态支持。 现有系统通常针对特定数据类型进行了优化,其体系结构与查询引擎也面向特定格式而定制。例如,关系型数据库适于结构化数据 [95],而 MongoDB 等系统则面向 JSON 等半结构化格式 [6]。在分析附带时间戳描述的视频时,分析人员常需手动将帧与相应文档对齐以实现跨模态分析 [158]。这种“专才化”削弱了跨模态异构数据的分析能力,进而提升了分析复杂度、引入错误并限制了洞察的广度与效率。 L4:基于表层格式的分析。 传统方法虽擅长过滤、聚合等操作,但缺乏对数据中语义信息的推理能力。比如在表格分析中,若单元格包含较长文本,SQL 往往只能检索或匹配关键词,而无法理解其语义(如情感、意图、因果关系)[280]。同样地,对于图表或文档等非结构化数据,分析师仍需手动解读与总结以满足分析需求 [69]。缺乏语义理解限制了当前系统的分析深度,也难以支撑超越表层模式、需要复杂知识推理的任务。
近来的大语言模型(LLM)与基于 LLM 的智能体带来了缓解上述挑战的新机遇。如图 1 所示,通过自设计的分析流水线、自适应的工具辅助工作流与自然语言交互,LLM 有潜力降低技术门槛、增强可解释性,并加速从多样数据形式中发现可执行洞见。 O1:复杂数据理解。 得益于对潜在模式与上下文依赖的表征能力 [196, 200],LLM 能够处理并推理关系数据、半结构化表格与非结构化文本等复杂数据。以图数据为例,模型不仅能理解结点与边所承载的语义内容,还能就其底层结构属性(如连通性、社群模式、层级组织)进行推理。这种深度而整体的理解使分析师能够产出融合定量度量与定性细节的更丰富洞见 [18]。 O2:自然语言接口(NL-based)。 基于 LLM 的分析智能体以自然语言为主要交互接口,使用户无需掌握 SQL 等专用查询语言或高级编程技能即可表达分析需求 [130, 115]。这种接口形式既提升了分析便捷性、加快了整体流程,也拓宽了不同用户群体参与数据驱动决策的范围 [202, 69]。 O3:语义算子。 LLM 使能结构解读、内容摘要等语义层操作,尤其适用于结构关系丰富或文本信息密集的数据 [219]。例如,在医疗记录数据库检索中,传统查询可能只返回包含“fever(发热)”一词的文档,而 LLM 驱动的算子还能识别“high temperature(高体温)”“febrile condition(发热状态)”等语义相关表述,从而增强查询的表达力,帮助分析师获得更准确、具备上下文意识的结果 [94, 232]。 O4:自主进化。 LLM 智能体并非静态工具,而是能够通过持续交互与学习来改进表现的自适应系统。鉴于分析需求与数据环境必然随时间演化 [76],这一能力尤为关键。例如,一个金融分析智能体最初或许专注趋势预测,但在迭代反馈中会扩展到实时检测异常或纳入新兴风险因子。此类自主演化有助于保持系统的先进性,减少对人工重配置的依赖,并持续提供更个性化与高效的分析支持 [19]。
如图 1 与图 2 所示,鉴于数据格式与应用场景的多样性,我们从两条维度对 LLM 赋能的数据分析进行分类:(1)所支持的数据模态范围(x 轴):结构化、半结构化、非结构化与异构;(2)交互范式的演进(y 轴):基于代码(code-based)、基于领域特定语言(DSL-based)与基于自然语言(NL-based)。
结构化数据(如关系数据库 [42] 与图数据 [16])因其标准化模式与明确定义语义而在工业实践中居于核心。传统路径依赖 SQL 等代码式查询语言,随后发展出面向特定领域任务的 DSL [2]。在 LLM 的推动下,用户可通过自然语言接口进行交互,进一步经代码生成、DSL 映射或LLM 问答来操作结构化数据 [139, 188],而智能体还能编排多步分析工作流 [292]。其核心在于利用 LLM 驱动流水线或端到端处理。 * 关系数据。 常见做法是将自然语言分析任务通过 LLM 转为 SQL 或代码,进而对数据库进行操作以获得结果。为更好对齐自然语言与专用语言,常在流水线中引入模式链接 [271]、信息检索 [174] 与任务分解 [76];或在特定任务上对模型进行微调 [265] 以提升端到端生成质量。另一方向是跳过数据库操作,直接使用 LLM 做语义分析,这要求模型更好理解分析意图与结构化数据内在关系,因而在流水线中常采用 RAG [170]、提示工程 [290] 与任务分解 [283],并通过 MLLM/LLM [285, 196] 在文本或可视化表格表示上进行推理。作为关系数据的一种特化形态,时间序列同样受益于类似技术:将自然语言转代码、检索与变换序列,或直接进行时序推理 [14, 96]。 * 图数据。 图以实体及其依赖关系刻画复杂网络语义,但也带来巨大的搜索空间与路径推理挑战。已有图数据库与专用查询语言 [1, 3],因此可将 LLM 作为自然语言与图查询语言的接口。为促进模型对图结构与语法的理解,常引入智能体 [130]、微调与提示工程 [129]。而面向图上的语义分析,主流思路体现为 RAG [276]、智能体 [146] 与微调 [264] 的结合。
半结构化数据介于非结构化文本与完全结构化的关系数据库之间,通常具备一定组织结构但不遵循严格模式。 * 标记语言。 XML、JSON 与 HTML 是常见形式。由于其同时包含标签与内容并天然具备结构属性,其技术演进与半结构化表格关系紧密,也推动了结构感知的预训练语言模型(PLM)发展 [18, 221]。 * 半结构化表格。 这是一类更灵活的表格数据。传统基于 PLM 的方法(如 [73][140])受限于对复杂版式、不规则表头与层级结构的表征能力。随着 LLM 的出现,新范式包括将半结构化表格转换为类关系型形式(SemiStru2Stru) [54, 117],以及利用 DSL 显式编码结构与操作的DSL 建模 [202]。
非结构化数据涵盖图表、视频、文档、程序代码与 3D 模型等,因缺乏固定模式而对传统流水线提出挑战。 * 图表(Chart)。 传统方法多依赖手工特征、模板匹配或规则解析 [99, 157, 180],易受设计与版式变化影响。LLM 出现后,可借助多模态理解解释图表的视觉与结构元素 [154],执行语义数据抽取,并支持基于自然语言的推理、描述生成 [135, 164, 193] 与 QA [243, 46, 256] 等任务。 * 视频(Video)。 视频包含随时间演化的空间内容,需要语义与动态的联合建模。传统视觉骨干结合时间池化/注意力的方法面临标注成本与长序列效率问题 [33][210]。近期工作将视频重构为结构化 token 序列,以便 LLM 推理;智能体进一步将查询分解为时间定位、模态融合与摘要等子任务,从而实现更丰富的时序理解与高效计算 [33][49]。基于此,LLM 也扩展到视频情感分析(融合视觉、声学、文本线索进行情绪推断),并结合姿态/3D 网格重建,支持互动建模与关系情感预测 [90, 159]。在目标检测方面,将高精度检测器与多模态推理结合,能够在视频中进行以对象为中心的摘要与参照定位 [48, 269]。此外,手势与行为检测可利用 LLM 驱动的流水线提取细粒度运动与手势特征,支持交互分析与具身行为推理,常借助 3D 重建以提升保真度 [236, 235]。 * 文档(Document)。 PDF、网页与扫描报告是商业与学术信息的主要载体。传统文档分析依赖 OCR 与规则模板 [277, 67],在复杂/多变版式与深层语义理解上乏力。多模态 LLM 通过统一处理文本—版面—视觉信息带来了变革: (1) 架构创新(如 LayoutLM 系列到 DocLLM)协同理解结构与内容 [253, 254, 86, 209];(2) RAG 适配长文档或多文档的问答与摘要 [110, 108];(3) 合成数据生成缓解标注数据稀缺 [184, 187]。这些技术推动文档处理从信息抽取迈向深度推理与综合。 * 程序(Program)。 程序分析旨在理解、验证与优化源代码,是软件工程的基石。传统静态/动态分析严谨但需要大量专业知识,且难以扩展至语义复杂的大型代码库。LLM 通过大规模代码学习获得了强大的生成与理解能力,催生新的分析范式。其核心在于构建与利用代码—任务对(如带漏洞标签、功能描述的代码片段)。借助迭代改写、自我校正等高级数据合成技术 [148, 34],可生成高质量训练数据,支持自动定理证明(ATP)、漏洞检测与仓库级补全等前沿应用 [247, 142, 272]。值得注意的是,代码领域 RAG 的深化显著增强了模型利用整个代码仓上下文的能力 [128, 239, 63]。 * 3D 模型(3D Model)。 3D 模型以点云、网格或体素表示欧氏空间中的物体/场景,广泛用于场景理解与科学分析。传统流程依赖几何处理(如网格简化、点云配准)[78, 59, 37] 与专业建模软件(如 Blender、Maya [25, 204]),既需要人工标注又缺乏语义理解。近期方法通过 3D–语言对齐 [77] 将几何转换为结构化嵌入或文本描述以便推理;智能体编排专用 3D 编码器与工具链,支持描述生成、导航、科学问答等任务 [77, 250]。进一步地,3D–语言融合框架将点云/网格映射到与自然语言对齐的嵌入,促进3D-LLM、3UR-LLM 等任务 [77, 250];面向领域的扩展将分子与蛋白结构纳入多模态推理(如 3D-MoLM、ProteinChat、ProtChatGPT)[119, 61, 208]。此外,跨模态细化通过特征增强与域自适应来桥接 2D/3D(如视觉定位、2D–3D 对齐或联合预训练),增强多模态 LLM 的泛化 [77, 119, 250]。
异构数据指多种类型数据的集成(如关系数据、半结构化表格、文档图像)[217]。早期研究聚焦异构数据管理 [7],通过类 SQL 语言实现数据检索。结合 LLM 的最新进展主要体现在三方面:(i)跨模态对齐 [205, 38](如利用自然语言描述计算跨模态相似度);(ii)面向异构数据检索的自然语言接口 [169, 218](将用户查询翻译为预定义 API 序列);(iii)异构数据分析智能体 [162, 219](为 LLM 配备适配不同模态的语义操作工具)。
如图 1 所示,LLM 赋能的数据分析智能体可沿五个关键维度概括,每一维对应通用数据分析智能体的设计目标: * 从字面到语义。 早期更多是生成可执行代码或 DSL 来辅助分析;现在正转向基于语义理解直接产出分析结果,减少中间过程。 * 从单一模态到模态融合。 由仅支持单模态转向可在多模态之间进行协同分析的模态混合能力。 * 从人工开发到自主设计。 由人工分解工作流(任务拆解、代码生成、操作执行)转向更广泛的自主工作流设计,降低人为介入。 * 从工具耦合到工具辅助。 由紧耦合、框架特定的工具体系,转向可调用任意工具集的解耦架构,提升灵活性与适应性。 * 从封闭世界到开放世界。 由面向特定领域任务的定制智能体,演进到可分析多样真实世界数据(文档、视频等)的通用型智能体,降低用户门槛。
相较于现有关于数据分析 LLM 的综述 [139, 188, 292, 185, 181, 97, 242, 53, 22, 58, 12, 201],我们的工作更全面、细致地覆盖了不同数据类型上的关键技术,并强调这些类型之间的内在联系。我们独特地从数据模态与接口语言两个视角审视技术发展趋势,并进一步提出构建通用 LLM 数据分析智能体的关键设计维度。 * 典型数据分析任务的全景式综述。 不同于聚焦于单一模态或单一任务(如 NL2SQL [139, 188, 292]、图理解 [185, 181]、表格问答 [97, 242]、文档理解 [53, 22]、图表理解 [58, 12]、视频理解 [201])的综述,我们按结构化—半结构化—非结构化—异构数据系统化梳理技术版图,追踪 LLM 赋能数据分析的技术演进,并识别面向通用数据分析智能体的五个关键设计维度。 * 数据分析技术的细粒度回顾。 超越高层概述,我们深入讨论具有代表性的技术路线,阐释其基本原理、技术设计与应用场景。区别于以往综述,我们进一步强调面向下游任务的数据构建/整理的重要作用,并给出相应的分析洞见。 * LLM/智能体作为数据分析师的最新进展。 除既有技术外,我们着重梳理了利用 LLM 推动数据分析的前沿发展(如智能体式设计、多模态对齐、交互技术),为研究者与实践者提供最新的参考。 * 开放挑战与未来方向。 我们识别了尚未解决的关键技术与实践挑战(如可扩展性、评测、真实系统集成),并在此基础上提出有前景的研究方向,以引导通用型 LLM 数据分析智能体的发展。
第 2 节讨论面向结构化数据的 LLM 方法,涵盖关系数据(第 2.1 节)与图数据(第 2.2 节)。第 3 节回顾半结构化数据分析,包括标记语言(第 3.1 节)与半结构化表格(第 3.2 节)。第 4 节考察非结构化数据分析,覆盖图表(第 4.1 节)、视频(第 4.2 节)、文档(第 4.3 节)、编程语言(第 4.4 节)与 3D 模型(第 4.5 节)。第 5 节面向异构数据分析。对每类数据,我们先介绍数据分析技术,再给出数据构建/整理的小节。第 6 节讨论各数据类型面临的挑战与未来方向,第 7 节总结全文。
前沿的人工智能(AI)技术不断重塑我们对世界的认知。例如,基于大语言模型(LLMs)的应用(如 ChatGPT)已经展现出在广泛主题上生成类人对话的能力。由于其在多种语言相关任务(如开放域问答、翻译和文档摘要)上取得的卓越表现,人们可以预见 LLMs 在更广泛的现实应用中(如客户服务、教育与无障碍支持以及科学发现)将带来的深远影响。受到这些成功的启发,本文将对最新的大语言模型及其在各学术学科中的融合进行综述,涵盖:(1) 人文、文学与法律(如历史、哲学、政治学、艺术与建筑、法律),(2) 经济与商业(如金融、经济学、会计、市场营销),以及 (3) 科学与工程(如数学、物理与机械工程、化学与化学工程、生命科学与生物工程、地球科学与土木工程、计算机科学与电子工程)。通过融汇人文与技术,本文将探讨 LLMs 如何塑造这些领域的研究与实践,并进一步讨论在生成式 AI 时代所面临的关键局限、开放挑战与未来方向。对 LLMs 在不同学科中的应用综述——以及由此得出的关键观察与洞见——能够为有意利用 LLMs 推动其工作在多样化现实场景中发展的研究人员和实践者提供参考。
当今,前沿的人工智能(AI)技术正在不断重塑我们对世界的认知。例如,基于生成式预训练 Transformer(GPT)架构的基础语言模型 ChatGPT [1],已经展现出在广泛主题上生成类人对话的能力,使其成为增长最快的应用程序(即在上线后的前两个月内用户数突破 1 亿)[2]。尽管其在鲁棒性与真实性方面仍存在局限,但凭借在多种语言相关任务(如开放域问答、翻译和文档摘要)上的卓越表现,ChatGPT 展示出在客户服务、个人助理以及医学诊断等多样化场景中的潜在应用价值。除了自然语言处理(NLP)领域的 ChatGPT 等模型外,计算机视觉(CV)中的预训练基础模型(如 Florence/Florence-2 [3] 与 Qwen2.5-VL)也在目标检测、图像分割、视频推理等多项视觉任务上取得了最先进水平,使其在面部识别、医学图像分析以及自动驾驶等应用中展现出显著价值。这种跨模态的融合进一步凸显了大语言模型(LLMs)的关键作用——它们不仅为表征学习和推理提供了统一框架,也成为嵌入其他模态的核心支柱,从而在 AI 驱动的科研与应用生态系统中居于中心地位。 受这些最新进展的启发,本文将综述前沿的大语言模型及其在多个学术学科中的应用整合,涵盖:(1) 人文、文学与法律(历史、哲学、政治学、艺术与建筑、法律),(2) 经济与商业(金融、经济学、会计、市场营销),以及 (3) 科学与工程(数学、物理与机械工程、化学与化学工程、生命科学与生物工程、地球科学与土木工程、计算机科学与电子工程)。作为人文探索与技术发展的交汇点,本文旨在探讨 LLMs 如何重塑各领域的研究工作流与专业实践,并进一步梳理其所面临的主要局限、未解挑战以及在生成式 AI 时代的未来发展方向。通过综合跨学科的应用并提炼关键洞见,本综述期望为希望利用 LLMs 推动现实应用研究与实践的学者与从业者提供指导。 基于近期突破,本文在第 2 章中首先介绍 LLM 的基本概念与评估方法。我们从精确定义与简要发展历史入手,进而通过概览和重点剖析主流模型家族——包括 GPT 系列、OpenAI 推理模型、Claude 3、Gemini 2、Grok、Llama 3、Qwen 2 和 DeepSeek——来绘制前沿图谱,突出其设计选择与功能特点。随后,我们讨论评估维度:涵盖核心任务类型、代表性基准数据集与常用方法,并给出性能综述,以期为理解模型表现与方法选择提供背景、比较图景与实践指南。 在三个学科群组(人文、文学与法律;经济与商业;科学与工程)中,我们首先通过综述其主要研究任务与传统方法来引入学科背景,强调其关键贡献与重要影响。接着,我们识别可由 AI 尤其是 LLMs 辅助解决的共性研究挑战,并提出一个任务分类体系,将学科研究与 LLMs 相结合:既保持学科相关性,又在算法层面确保一致性,以支持模型开发、基准评测与比较分析。在每个类别中,我们回顾现有的 LLM 驱动的研究与应用,探讨其局限,并展望未来研究方向。最后,我们总结代表性基准与关键讨论。 在第 3 章中,我们调研 LLMs 如何正在改变人文学科与法律领域,从证据到实践展开。在历史学中,我们涵盖叙事生成与分析、定量与科学方法(如历史心理反应的模拟),以及跨学科研究,并结合基准讨论。在哲学中,我们回顾规范与解释性应用(如辩论/对话生成)、分析与逻辑应用(如符号落地诊断),以及跨学科研究。政治学部分,我们考察政策洞察的文本分析、意见模拟与预测、政治信息生成与框架化,并附带基准与反思。艺术与建筑部分,我们综述模型辅助的视觉、文学、表演艺术创作,以及基于 LLM 的建筑设计与分析,并总结评估与经验。最后,在法律部分,我们覆盖法律问答、合同与文书撰写、法律文档理解与案例分析、判决预测,并附以基准与讨论。 在第 4 章中,我们综述 LLMs 在经济与商业中的应用。在金融领域,我们涵盖交易与投资研究、公司金融、市场分析、金融中介与风险管理、可持续金融、金融科技及相关基准。在经济学中,我们涉及行为与实验研究、宏观经济模拟与基于智能体的建模、博弈论与战略互动、经济推理与知识表征,并配套评估。在会计部分,我们审视审计、财务与管理会计、税务,并总结基准。在市场营销部分,我们涵盖消费者洞察与行为分析、内容生成与活动设计、市场情报与趋势分析,同样附带性能基准。 在第 5 章中,我们系统回顾 LLMs 在科学与工程中的应用。数学部分包括定理证明辅助、理论探索与模式识别、数学教育与相关基准。物理与机械工程部分涵盖文档任务、设计构思与参数化制图、仿真支持与建模接口、多模态实验解读、交互式推理,并附以评估与讨论。化学与化学工程部分包括分子结构与反应推理、性质预测、材料优化、实验映射、分子设计、反应数据组织,并比较不同基准。生命科学与生物工程部分涵盖基因组序列分析、临床结构化数据整合、生物医学推理与理解、混合结果预测,并特别关注验证标准。地球科学与土木工程部分包括地理空间与环境数据任务、仿真与物理建模、文档处理、监测与预测性维护、设计与规划,并总结基准。最后,在计算机科学与电子工程部分,我们综述代码生成与调试、大规模代码库分析、硬件描述语言生成、功能验证、高层综合,并附以专用基准与挑战讨论。 在第 6 章中,我们以“把握当下,塑造未来”为题进行总结,综合跨领域证据,概述新兴前沿,归纳人文学科与法律、经济与商业、科学与工程三个领域的共性机遇、局限与范式,并提出未来路线:包括基于模式对齐的多模态融合与可溯源归因、受限条件下的工具增强计算、规则约束的可复现智能体仿真、时间—因果适应、带不确定性控制的决策支持、人机协作监督与治理、以及面向教育的能力建设与安全嵌入——从而提供一个可实践、可审计、可扩展的跨学科应用蓝图。 综上,本文从基础与评估到跨学科应用,系统勾勒出 LLM 研究与应用的全景,展示了当下的有效方法、尚存的脆弱环节以及进展的衡量方式。读者可以获得通用的任务分类体系、模型与工具选择的指导、严谨评估与基准构建的方法,以及在效用、安全、合规与人类监督之间取得平衡的实践模式。尽管本文不可能穷尽所有视角,且某些观点仍有待讨论,但随着 AI 技术尤其是生成式 AI 的快速发展,相关学科必将持续演进。作为初步努力,本综述希望帮助读者识别有前景的问题表述、设计合理的评估方案、预估潜在影响、并预判可能的失败模式。我们期望该综合性工作能够为研究人员、从业者与政策制定者提供借鉴,以负责任地把握当下,并塑造一个 LLMs 能够在广泛学科中实现可靠、可审计与真正有用能力的未来。
兵棋推演是多层面、多参与者的冲突模拟,其中参与者的决策会影响未来事件发展。兵棋推演常被用于探索决策的战略影响。然而,它也涵盖面向娱乐的模拟,从国际象棋到《龙与地下城》(D&D)等桌面角色扮演游戏。在兵棋推演谱系中更为开放的一端,玩家使用自然语言传达其行动,由裁决员判定结果。语言模型(LM)正日益被考虑用于为现实世界的关键决策提供洞察。我们对精选的100篇近期关于兵棋推演中人工智能的文献进行了范围界定审查,据此构建了一个基于玩家或裁决员所获创造力的兵棋推演本体论。聚焦于为玩家和裁决员提供最大开放度的兵棋推演空间,我们提炼出一套关于何时及如何在不同应用领域使用语言模型的考量因素。我们还提出了一套安全考量、在开放式兵棋推演中部署语言模型的最佳实践,并以一系列高影响力的开放性研究挑战作为总结。
数千年来,启动群体间暴力冲突的决定始终是严格由人类掌控的事务。尽管常言道“战争从未改变”,但若没有后半句“唯有武器是新的”,这句话就不完整。现实是,人工智能(AI)正在彻底改变人类关于战争的决策方式。AI在高风险场景中的使用意味着,机器错误将以人类生命的损失来衡量,而非损失函数或基准分数。
在过去五年中,AI作为现实世界决策流程一部分的采用速度加快,这主要得益于语言模型(LM)在研究和工程上的进步(Kwa等人,2025年)。由语言模型驱动的AI系统正日益用于帮助分析和规划困难任务。AI提供通用人类水平智能的隐含承诺,意味着这些系统现在受到各国政府、军事安全组织和跨国公司的极大关注,将其作为实现运营自动化、以期达到更高效能或降低失败率的一种手段。然而,兵棋推演并不仅限于战争。该术语泛指任何多层面描绘冲突、且参与者决策会影响事件未来结果的游戏。因此,“兵棋推演”被用于辅助商业、外交、法律、医疗保健、网络安全和军事领域的战略决策。这些领域的主题专家(SME)寻求在以语言为中心、因而具有开放性的兵棋推演中利用AI,从而赋予玩家高度创造性的构思能力(Hogan和Brennen,2024年)。历史上,这类推演只能作为纯人工演练进行,资源密集且难以大规模分析(Mood,1954年;Perla,1987年;Davis,2017年)。
这与分析性兵棋推演形成对比,后者具有受限的行动空间和有限的可能结果,这与我们所处混乱不确定的世界形成鲜明对比。因此,分析性兵棋推演在适用于依赖叙事理解或社会人为因素的场景方面存在局限性(Geist等人,2022年)。那些具有界限分明行动空间和明确定义评估标准的游戏,适合作为计算模拟来实现,并且可以有效地应用搜索、蒙特卡洛树搜索(MCTS)和强化学习(RL)等AI系统。
语言模型为基于语言的开放式游戏的各方面自动化开辟了众多新的可能性。与此同时,这些机会由于此类游戏的开放性本质所赋予的更大自由度而带来了严重的部署风险(Rivera等人,2024年)。早期的语言模型实验使用现成的模型来玩脚本化事件的分析性兵棋推演,结果发现其导致脆弱的推理、幻觉和不遵守规则(Lamparth等人,2024年)。
本文呢提出了一份全面的范围界定文献综述,为在复杂兵棋推演场景中部署AI确立了关键的、以讨论为导向的需求。本文通过为研究人员提供深入领域分析和高影响力研究方向战略路线图,填补了文献中的重大空白。本文的关键贡献包括: ● 一个关于开放式兵棋推演的精选参考目录,用以指导AI研究人员。 ● 一种新颖的分类法,帮助研究人员识别兵棋推演的关键特征。 ● 语言模型在兵棋推演中应用的特定领域需求,概述关键设计原则与挑战。 ● 一套供从业者使用的降低风险并确保语言模型在兵棋推演应用中可靠性的最佳实践框架。 ● 对在兵棋推演中使用语言模型的安全考量进行的审视。 ● 一组开放性研究问题及未来工作的明确方向。
兵棋推演中的人工智能
当前关于兵棋推演中人工智能的研究主要针对分析性游戏,这类游戏的世界状态及其通过行动改变的方式由严格的规则和一个离散的(尽管有时组合数量巨大)游戏状态空间所定义。常见的例子包括国际象棋、围棋和《星际争霸》(Silver等人,2017年;Vinyals等人,2019年;Goodman等人,2020年;Ma等人,2025年)。这些游戏没有提供融入模糊性、创造性或多方互动的机会,而这些正是开放式游戏的核心。以范围严格的动能或后勤模拟形式提供的计算支持要可行得多,通常能提供真实无误的游戏状态和转换。因此,分析性游戏适合使用状态空间搜索、MCTS和RL(Wan等人,2023年;Black和Darken,2024年)等技术的人工智能游戏代理。这些AI技术可以成为强大的求解器,但代价是难以推广到新场景(Balloch等人,2022年)。
兵棋推演相关文献
在大语言模型(LLMs)的快速发展推动下,基于LLM的智能体已经成为强大的智能系统,具备类人的认知、推理与交互能力。这类智能体正日益广泛应用于多种现实场景,包括学生教育、科学研究与金融分析等。然而,尽管其潜力巨大,基于LLM的智能体仍易受到幻觉问题的影响,导致任务执行错误,进而削弱整体系统设计的可靠性。
应对这一关键挑战,需要对近年来关于基于LLM的智能体的研究进展进行深入理解与系统整合。为此,我们提出首个关于智能体幻觉的全面综述。通过仔细分析智能体的完整工作流程,我们提出了一种新的分类体系,用以识别在不同阶段可能出现的不同类型幻觉。此外,我们还深入探讨了十八类导致智能体幻觉产生的触发因素。
在对大量现有研究的详细回顾基础上,我们总结了幻觉的缓解与检测方法,并强调了未来研究中值得探索的方向。我们希望本综述能够激发更多学术界与工业界在解决智能体幻觉问题上的努力,最终推动更加稳健、可靠的智能体系统的发展。
大语言模型(LLMs)[3, 96, 100, 261, 262, 373] 近年来在广泛的任务中展现出了卓越的能力,包括语言生成 [69, 273]、意图理解 [32, 88] 和知识推理 [120, 197]。这些能力主要得益于大规模训练数据 [345]、模型架构创新 [267] 以及在指令微调 [189] 和上下文学习 [70] 过程中涌现出的新兴能力 [296]。在这些突破的基础上,基于LLM的智能体 [45, 241, 282, 306, 332, 384] 在跨领域的任务自动化中表现得日益熟练,标志着迈向通用人工智能(AGI)[91] 之路上的关键里程碑。此外,这些智能体可以被编排为基于LLM的多智能体系统(MAS)[29, 102, 113, 153, 192, 215],其中不同专长的智能体通过协作与交互,共同解决任何单一智能体都无法独立完成的复杂现实问题,例如知识共享 [9, 107] 与协同协调 [354, 381]。 尽管基于LLM的智能体在性能上取得了令人瞩目的成就,其快速发展也带来了新的安全挑战 [260, 348, 369]。在这些挑战中,智能体幻觉(Agent Hallucinations) 问题构成了尤为严重的威胁 [66, 174, 363]。先前关于幻觉的研究主要集中在自然语言生成(NLG)[70, 86, 230] 领域,在该领域中,幻觉通常指NLG模型生成不真实或无意义的文本。Ji 等人 [131] 对不同NLG任务中解决幻觉问题的最新进展进行了综述;Huang 等人 [123] 则专门探讨了LLM幻觉的成因。在这一背景下,LLM幻觉可分为事实性幻觉和忠实性幻觉。前者强调生成内容与可验证的真实世界事实之间的不一致 [204];后者则指输出偏离用户原始输入 [76]。此外,相关研究还讨论了若干有效的幻觉检测与缓解技术 [179]。 与上述场景不同,基于LLM的智能体是一类更加复杂的智能系统,具备目标导向的推理与行动能力。此类智能体通常包含三个核心模块:大脑(brain)、感知(perception)和行动(action) [66, 307]。其中,大脑模块主要负责存储记忆和知识,支持任务执行所需的推理与决策;感知模块拓展了智能体的感知空间,使其能够处理多模态环境输入;行动模块则扩展了智能体的行动空间,使其不仅能够生成文本输出,还能调用工具以完成更复杂的任务。因此,在基于LLM的智能体中,幻觉并非单纯的“语言错误”,而是可能在智能体流水线任意阶段出现的广义的虚构或误判的“类人行为”。由此可见,智能体幻觉的表现形式与成因要复杂得多,具体体现在以下三方面: 1. 类型更加多样化:智能体幻觉并非单模型的简单响应错误,而是由多个模块相互作用引发的复合行为,导致幻觉类型更广泛、更复杂。 1. 传播链条更长:传统幻觉多为局部的、单步的错误,而智能体幻觉往往跨越多个步骤,涉及多状态的转变。这类幻觉不仅可能出现在最终输出,还可能在感知与推理等中间环节产生,并随着时间推移不断传播与累积。 1. 后果更为严重:智能体幻觉涉及“具身后果”的错误,即错误的具身行动可能直接影响任务执行、系统设备以及现实中的用户体验。因此,智能体幻觉的代价和风险显著更高。
然而,现有关于基于LLM智能体的综述主要关注架构设计与实际应用,对于智能体幻觉的重要性与紧迫性则远远缺乏重视。 为此,我们对智能体幻觉进行了系统性的综述,以填补这一重要空白并推动智能体研究的进一步发展。本文将LLM智能体的交互动态建模为部分可观测马尔可夫决策过程(POMDP),其中智能体与学习环境交互、做出决策、接收反馈并在多个时间步中更新其状态。在此通用POMDP设定下,我们的主要贡献总结如下: * 首个综述:据我们所知,这是首个专门回顾基于LLM智能体幻觉问题的综述。我们涵盖了关于幻觉缓解与检测的最新研究,提供了一个全面的视角。 * 创新分类体系:我们提出了一种新的智能体组件分解方式,将其划分为 内部状态(Internal State) 与 外部行为(External Behaviors)。前者由智能体维持的信念状态表征,作为智能体认知策略的最基本单元;后者则是由信念状态驱动的一系列主动行为。基于这种内外部的区分,我们对智能体幻觉进行了分类,涵盖了 五类智能体幻觉。 * 全面回顾:针对每一类智能体幻觉,我们给出了形式化定义、示例说明,并深入讨论了代表性研究。在此基础上,我们识别了 十八类触发因素,并总结了 十类通用的幻觉缓解方法,同时结合相应的检测手段,为读者提供清晰、前沿的研究全景。 * 未来展望:通过回顾与总结现有解决方案及其局限性,我们提出了若干未来值得探索的研究方向,这对于推动学术研究与现实部署都具有重要意义。 * 开放资源:我们整理并公开了超过 300 篇相关文献 的资源集合,并在 GitHub 上开放,以促进学术社区的交流与合作。
论文组织结构:本文余下部分安排如下:第2节介绍基于LLM智能体的形式化定义;第3节提出新的智能体幻觉分类体系;第4节回顾现有解决方案,重点关注幻觉缓解方法;第5节讨论未来研究方向;第6节对全文进行总结。
当今的空域环境日益复杂。防空系统、巡航导弹、无人机系统(UAS)、巡飞弹药及远程火力的技术进步塑造了此种复杂性。空域的垂直维度,以及部队在其中机动的速度与自由度,对寻求在空域行使控制的指挥官构成了独特挑战。此外,飞机性能、空域特征、空域使用及各种控制程序等广泛变量增添了额外的复杂层。因此,空域控制的目标是使军事行动能最有效、高效且安全地利用空域,以实现联合部队指挥官(JFC)的目标与优先事项。
空域控制极具动态性与情境性。它需要灵活且响应迅速,以容纳具有不同技术能力的用户,并缓解技术故障或敌方行动的影响,从而优化空域使用。因此,空军人员应具备空域专业知识并结合联合视角,以确保空域控制系统与程序促进空域的安全、高效和灵活使用,同时提升作战效能并赋能新兴联合部队能力(如小型UAS、讯飞弹药)。经验证的空域控制程序具有持久效用,但新技术与新平台将迫使持续调整以适应不断变化的作战环境。空军人员必须创新思维,以预见并解决未来挑战。此外,至关重要的是,空军人员须接受训练,以分布式方式周密规划全域效应,并在分布式环境中与决策者隔离时执行任务。空军人员必须习惯于依据指挥官意图与任务式指挥原则进行决策和行动。
在建设更具能力的未来部队时,条令必须演进以适应新技术。现有的指挥控制(C2)架构,结合经验证的最佳实践,为应对不断演变的空域挑战的创新解决方案奠定了基础。
空域控制定义为“通过控制程序与协调措施(CM)对指定空域及用户行使被授予的权限,以最大化作战效能。” 联合作战中的空域控制是一个术语,用于描述空域控制权(ACA)所执行的活动与行使的权限。空域控制权是指被授予空域控制总体责任的指挥官。空域控制权制定空域控制计划(ACP)并通过空域控制系统(ACS)实施空域控制。空域控制系统是空域控制权对组成部队和东道国空域控制要素(即空域控制组织、人员、政策、程序与设施)的安排。 为保障空中任务指令(ATO)的执行,空域控制要素扮演包括空战管理(如C2联合空中作战)、防空(战斗识别、预警、武器控制状态、目标跟踪、防御性防空[DCA])或监视与侦察等角色。
依据(IAW)联合部队指挥官指南,空域控制要素管理空域申请、指挥机动飞机并整合火力。有效的空域控制需要计划与持续评估。计划在作战行动开始前启动,并通常在竞争连续体中经历不同程度的民用与军用控制过渡。联合部队指挥官批准联合作战区域(JOA)内的空域控制程序。空域控制旨在最大化作战效能,同时不过度限制任何军种或职能组成部队的能力。
飞机性能、空域特征、空域使用及各种控制程序等广泛变量为空域控制操作增添了层层复杂性与难度。此类挑战在多国空中行动期间尤为突出。东道国关系、系统互操作性以及跨组成部队与伙伴部队的不同规划流程也引发了额外关切。同样,其他政府机构、民用用户、非政府组织及救援机构可能需要使用战区空域。总之,这些用户需求需要一个集成的空域控制系统,以实现空域的安全高效使用,并降低误伤事件及对民用和中立力量意外交战的风险。
制空权不同于空域控制,但与之密切相关。无论联合部队在空域行使的控制程度如何,一定程度的空域控制对于空中作战是必要的。联合部队在特定时间地点相对于敌方在空域行使的控制程度可描述为空中均势、优势或绝对优势。空中均势描述了一个对抗环境中没有任何一方掌握制空权的状态。空中优势描述了一种控制程度,使一方能在给定时间地点实施作战而无须承受来自空中与导弹威胁的压倒性干扰。空中绝对优势描述了一种控制程度,使敌方无法在作战区域内使用空中与导弹威胁进行有效干扰。
虽然空中绝对优势最为理想,但在作战中可能不可行。在此类情况下,空中优势,即使是局部或暂时的,也可提供足够的行动自由以创造预期效果。局部空中优势作战的空域控制程序应反映联合部队指挥官可接受的风险水平与作战目标之间的平衡。这确保投入适当水平的空域控制资源以保障作战。联合部队空中组成部队指挥官,为实现防空目标,将空域控制程序与规划(一项空域控制权职能)与进攻性防空、防御性防空(一项区域防空指挥官职能)及其他组成部队作战相整合。空域控制计划可能对友方及民用空域用户实施更严格的限制,特别是当某些平台缺乏便于识别的通信设备与技术时。随着联合部队对空域控制力的增强,空域控制计划能容纳更多样化的空域用户。
纵向与横向集成的指挥与控制能够在“集中指挥—分布式控制—分散执行”的任务式指挥框架内实现空域控制。此架构融合组成部队联络官、空域控制要素与空域用户,以增强域感知能力并满足指挥官意图。提升的空域感知能力有助于增强对空域控制系统与空域控制权的信任,同时缓解空域冲突并保障联合部队作战。空域控制要素与用户依据指挥官意图行动,从而在对抗、降级及作战受限环境中实现行动统一,此类环境中与上级总部的通信可能中断或无法进行。
空域控制权(空域控制的集中指挥官)被联合作战指挥官或联合部队指挥官授予空域控制权限。空域控制权应整合联合部队指挥官要求、能力与指挥控制结构,以构建一个连贯、韧性且可互操作的空域控制系统。空域控制系统架构应适应联合作战区域内的分布式控制与分散执行。空域控制权可进一步将空域控制权限下放给有能力有资源为更广战区或联合作战区域内特定空域范围进行空域控制作战(即实施指挥与控制流程:计划、准备、执行与评估)的指挥官。空域控制权的执行权限被授予各种空域控制要素(例如,控制与报告中心、空中支援作战中心、海军战术空中控制中心、机载指挥与控制),以根据计划、指令与命令分散执行空域控制与作战管理职能。下图描述了与任务式指挥框架对齐的概念性空域控制系统。
空域控制本质上是联合的,并影响每个作战域。所有联合部队组成部队都有空域任务需求,这些需求应在空域控制系统内进行集成、协调、优先排序与冲突消解。空域控制系统的安排与运用应旨在:
此外,空域控制系统通过利用太空、网络空间与电磁频谱能力支持全域协同效应。天基系统为空域用户提供定位、导航与授时。当用户在偏远地区穿越或行动时,地基定位能力减弱。在此类情况下,太空系统的重要性增加。
空域的上限对应太空域的下限。太空域是指大气对空中物体的影响可忽略不计的高度以上的区域。空域控制权应通过联合部队太空组成部队指挥官或联合综合太空小组(若已建立)与美国太空司令部协调空域以上的任何行动或规划。
网络空间能力对于空域控制系统内的协调与空域控制功能至关重要。网络化系统使各种空域控制要素能持续接收准确及时的空域控制系统信息更新。除网络空间外,频谱管理对有效的空域控制系统至关重要。电磁频谱支撑空域控制系统的诸多方面,用于飞机与控制要素之间各种目的的传输。
未来的空战胜负不仅取决于谁的飞行器最快或最隐蔽,更取决于谁能在遭受攻击时思考、感知和行动最快,以及谁能保持其算法的可靠性。人工智能与无人机系统的结合正在重塑制空权的逻辑。二十世纪的空中优势取决于平台性能、飞行员技能和出动架次,而二十一世纪正迅速演变为一场认知节奏的竞赛——当人类与机器作为一个整体在对抗环境中运作时,“观察-调整-决策-行动”循环的速度与可靠性成为关键。边缘人工智能、传感器融合、巡飞弹和协同蜂群技术能以机器速度将原始传感器数据转化为战斗效果。这种速度能否转化为作战优势而非战略负担,取决于在对抗性电磁环境中的韧性、安全的模型保障流程以及能保持态势理解与问责性的人机交互设计。决定性资源正从飞机与弹药转向可信数据生态系统和快速、可审计的软件更新周期,这一转变重新配置了采购优先级、训练和盟国互操作性。
人工智能与无人机融合对制空权的三重变革:
软件成为核心战斗力:未来战争中,最具决定性的资产往往是算法模型、用于训练模型的标注战场数据,以及向前线节点推送更新的安全传输流程。模型的持续集成与持续部署能力,即快速迭代部署改进算法的效率,其重要性将与战机发动机和弹药储备等同。
韧性工程纳入作战条令:作战体系必须设计具备在卫星导航受阻、电子对抗和网络攻击环境下保持基本运行的能力。网状通信、降级自主模式、数据与模型的可靠溯源机制、明确定义的性能渐进衰减方案,都将从工程技术指标升级为作战刚性需求。
评估标准根本性转变:各国军队将日益采用作战效能指标衡量实力,包括:对抗环境下的平均目标识别耗时、算法模型从训练到部署的周期、误判引发的作战代价等,而非单纯统计战机架次与装备数量。对认知节奏与系统韧性的量化评估,将直接驱动装备采购与训练决策。
乌克兰战场已成为无人机创新的动态实验场:作战双方将大规模低成本无人机、巡飞弹药与商用技术改装整合成分布式作战体系,生成海量作战数据并实现战术快速迭代,显著提升杀伤链效率。基辅方面的实践表明,能在数周而非数年内完成实战数据重训、战术更新与后勤优化的部队,可突破传统装备采购周期限制,即便面对强敌也能夺取局部制空权。与此同时,俄军混合使用国产与进口无人系统的实践,既验证了此类装备的战术价值(如低成本饱和打击),也暴露出其替代体系化作战能力的局限性。军事学者从双方差异化的适应路径与力量结构调整中得出关键结论:真正的战略控制权,仍取决于能否将侦察监视、电子对抗、一体化防空与后勤保障熔铸为有机的作战体系。
2025年5月的印巴冲突首次展示了南亚地区大规模跨境无人机作战图景,两个核邻国间爆发了协同无人机突击与体系化反制行动。双方加速构建自主能力(印度推出数亿美元产业激励计划,巴基斯坦引进土耳其等技术),攻防两端的需求在实战中充分显现。这一区域性案例凸显了:当战略竞争对手获得对等技术扩散时,危机演进速度将急剧提升,冲突升级管控难度呈指数级增加。