及时全面理解新兴事件对有效决策至关重要;自动化态势报告生成能显著减少情报分析师的时间、精力与成本。本工作识别了情报分析师在态势报告生成中对AI辅助的实践与偏好,以指导设计符合其思维过程与需求的有效、建立信任的界面策略。继而,本文介绍智能书(SmartBook)——一个从海量新闻数据自动生成态势报告的框架,通过自动发现事件相关战略问题构建结构化报告。这些报告包含多个假设(主张),均基于来源进行摘要并辅以事实证据,以促进深度态势理解。本文对智能书进行的综合评估(含用户研究及结合编辑研究的内容评审)揭示了其在生成准确相关态势报告方面的有效性。定性评估表明超过80%的问题探查战略信息,超过90%的摘要产出战术实用内容,其表现持续优于结合网络搜索的大语言模型生成摘要。编辑研究显示生成文本的信息删除量极低(低于2.5%),表明智能书为分析师提供了有价值的态势报告基础。
在当今快速变化的世界中,情报分析师面临持续挑战:需在新闻、谣言与演变叙事的海量涌入中保持信息同步。为理解动态事件,必须从异构数据源提取共同真相。目前,情报分析师编写态势报告以提供事务概述、潜在风险或威胁及视角,并附指导行动规划与战略发展的建议措施(Organization等人,2020年,2022年)。态势报告需以清晰逻辑结构呈现关键事件与趋势的突出信息,便于理解、跟踪及便捷获取。这些报告的下游消费者(公众、决策者与利益相关方)不仅寻求原始信息,更追求清晰度、背景与可行动见解。然这些手动编制的报告存在局限:耗时产生(National Academies of Sciences等人,2019年)、可能呈现偏见(Castonguay,2013年;Belton与Dhami,2020年)、事实错误(Sun等人,2024年),且因需处理信息量巨大而受限(Doggette等人,2020年;Young,2019年)。情报分析师花费大量时间筛选庞大复杂数据源(Golson与Ferraro,2018年;Council等人,2011年)(如社交媒体谣言传播、新闻爆发、背景统计数据、领域专家意见等),读者常苦于信息过密或不够全面。鉴于信息量巨大,分析师难以进行深度分析与批判性思考以制定战略问题并生成见解。我们假设自动态势报告生成可弥合阅读与撰写情报信息间的差距。然现有摘要方法(Fabbri等人,2019年;Abdi等人,2017年;Li等人,2014年)生成纯文本,未提供细节、结构及高层战略信息以支持下游消费者决策。尤其当前基于大语言模型的方法(如GPT-4/ChatGPT(OpenAI,2021年))可能因未实时更新信息且缺乏事实核查机制而无法回答或错误回答用户问题(例如表1)。
表1:基于GPT-4的ChatGPT无法生成态势报告,因其对实时事件的认知存在局限。相较之下,SmartBook能够生成及时、多源且可信的应答。
为建立自动生成态势报告的基础,开展形成性研究(见§2.1.1)以把握情报分析师对AI驱动系统的期望。研究发现表明分析师对AI辅助持开放态度,寻求AI操作透明性,且对控制系统欲望各异。为理解态势报告编制过程,通过协作设计会话(见§2.1.2)增强初始研究结果,旨在确定实用设计策略与建议,尤其关注人类情报分析师如何导航、研究与撰写报告。高层级上,我们推断系统界面须在视觉上对齐分析师顺序思维过程,提供信息流透明度以建立信任,并使分析师对AI工具流程拥有一定控制权。这些结论由此指导了自动化态势报告生成的设计策略。
基于形成性研究与协作设计所奠定的基础,提出智能书(SmartBook)——一个旨在辅助编写态势报告的人类分析师的框架。智能书从多源摄取数据以生成信息定期更新的综合报告。人类分析师通常基于自身对态势的理解提出问题以获取信息。然这些问题可能静态或过于模糊,并随态势快速演变而过时。相较之下,智能书自动发现对态势分析重要的问题并收集突出信息以生成报告。针对重大事件的所有问题,报告包含源自相关主张的战术信息摘要,并附局部背景及源新闻文章链接。智能书以映射当前情报分析师工作流的方式构建数据——将事件分解为时间线、章节及基于问题的部分。每部分含基于查询的接地气摘要及其相关主张。此直观结构便于阅读与写作时更易吸收信息。采用以人为本的设计方法,我们的目标是增强而非取代人类分析师能力。图1展示智能书针对乌俄危机的示例,呈现时间跨度、章节及对应部分的结构化层级。
图1. 智能书针对乌俄危机的示例图。智能书按时间线组织,以两周为时间跨度包含章节与对应部分。部分标题为战略问题,每部分内容由摘要及相关主张链接组成,其中事实证据与知识要素均被高亮。斜体实体与事件(构成关联知识要素)分别以红色与蓝色高亮。
在对智能书的综合评估中,我们开展两项互补研究:效用研究(§3.1)评估可用性与交互,内容评审(§3.2)检验文本摘要质量。涉及情报分析师与决策者的用户研究聚焦关键研究问题,探索智能书在态势报告生成中的可用性、直观性与有效性。参与者参与半结构化访谈与研究后问卷,反思系统使用体验。内容评审通过评估智能书生成报告的可读性、连贯性与相关性予以补充,包括由专家分析师修订摘要以符合其可接受标准的编辑研究。此过程主要目标为评估将智能书用作创建态势报告初步草稿工具的可行性。结果表明智能书生成内容大多准确,仅需少量编辑修正部分事实错误。然编辑过程大部分精力集中于添加证据支持摘要。编辑研究结果提示,尽管智能书提供坚实基础,其显著受益于人工优化。本工作贡献如下:
• 一项综合形成性研究与协作设计过程,用于识别指导自动生成态势报告的设计策略。
• 智能书(SmartBook):一个从多源生成全面最新态势报告并以直观用户友好方式呈现的自动化框架。其识别关键战略问题,确保下游读者获得针对性、相关且证据扎实的信息以辅助决策过程。
• 一项涉及情报分析师与决策者的全面效用评估,探究系统可用性。
• 一项内容评审用于评定生成信息质量,辅以编辑研究理解智能书生产态势报告初步草稿的可行性。
SmartBook(一种用于生成态势报告的AI驱动系统)的开发遵循迭代式以人为本的设计方法。初始阶段侧重于设计和开发后端工作流程以及初步前端界面,并包含多个评估阶段。在此过程中,向政府和私营部门的利益相关者进行了多次演示,获得了宝贵的反馈。第二阶段通过形成性研究和协作设计研究让情报分析师和决策者参与进来,以更好地了解他们的需求和期望。形成性研究阶段(§2.1.1)涉及半结构化访谈,以收集用户的见解,包括对AI系统期望的详细分析。随后,协作设计阶段(§2.1.2)将用户和开发者聚集在一起,以完善和验证初始设计概念。通过互动环节,参与者对原型功能提供了实时反馈,以获取AI辅助报告生成的精确需求。这些努力的成果是一套设计策略,确保SmartBook采用以用户为中心的设计,服务于情报分析师的实际需求。
形成性研究旨在收集情报分析师对AI驱动系统的普遍需求和期望。该研究针对十名具有政府和军事角色经验的情报分析师进行(招募细节见补充材料§4.1)。在两周的时间内,对这些分析师进行了半结构化访谈,以考察他们对AI在专业环境中使用的理解、观点和建议。该研究突出了与分析师对AI辅助创作工具的看法和期望相关的新兴主题,简要描述如下:
• 将技术视为增强人类能力的手段:绝大多数(10人中的9人)强调AI在增强其能力方面的关键作用,这些工具不仅被视为流程加速器,而且是通过提高研究效率、激发想法和提升信息清晰度来丰富其工作的基本要素。这种观点与媒体将这些技术简单描述为人类努力的替代品形成对比。
• 像信任和依赖人类一样信任和依赖机器:大多数参与者(10人中的8人)表现出将类似人类的信任和可靠性品质赋予AI系统的倾向。信任AI的标准与人类互动的标准非常相似:提供可靠信息的能力、推理的透明度以及基于可验证事实的基础。有趣的是,分析师并未对AI设定比人类同事更高的标准。这种信任和可靠性标准的对等性表明,参与者将AI视为平等的协作伙伴,依据与人类团队成员相同的理由评估其能力和可信度。
• 训练和指导AI:我们的研究发现情报分析师在他们在培训和指导AI系统方面的角色观点上存在分歧。十名参与者中有四人主张对AI拥有实质性控制权,强调需要一个交互式系统,允许他们影响从信息源选择到报告叙事塑造的一切。相反,大多数人(十人中的六人)倾向于更放手的方法,强调态势报告的创建遵循适合AI实施的完善、标准化程序。他们将AI参与视为日常监督的延伸,类似于审阅初级同事的工作。
为了获得对情报分析过程和生成态势报告的操作性理解,我们通过与十名分析师的后续协作设计会议,扩展了形成性研究(§2.1.1)中确定的设计机会。目标是获取用户关于他们作为情报分析师如何导航、研究和撰写态势报告的具体设计策略和建议。
我们与分析师进行了研究会议,每次会议包括使用故事板进行工作流程审查和通过模拟报告练习进行动手培训。在我们的研究中,参与者使用一个低保真故事板(如图2所示)进行互动,每个面板描绘了态势报告创建的不同阶段。参与者的任务是详细描述每个故事板面板,以确保对所描绘场景和工作流程的理解。参与者使用样本情境模拟每个故事板步骤以获得实际工作流程经验,并被建议利用多样化的资源,包括如Google和Bing等网络搜索引擎,以及如ChatGPT(Achiam等人,2023年)等大语言模型(LLM)来完成任务。 协作设计会议的数据分析显示了三个主题:提升分析效率、AI系统透明度和定制灵活性。参与者强调需要反映其心智模型的界面,以减轻认知负荷,使他们能够专注于战略方面。他们非常重视理解AI系统的底层逻辑以建立信任,倾向于采用透明的方法和可追溯的数据源来验证自动化输出的可信度。此外,用户表达了对支持不同分析风格和复杂性、并能整合来自不同来源的信息以提供全面分析的工具的渴望。
图2. 与情报分析师进行协作设计会议时使用的故事板。
根据上述形成性研究和协作设计的发现,我们确定了以下设计策略:
• DS1:鉴于对减轻认知负荷和提升分析效率的重视,系统将设计一个能反映情报分析师数据分析和报告生成自然过程的界面。
• DS2:为了提高效率,系统将集成功能以自动化耗时任务,如问题策划和初步研究,从而减少分析师的手动工作量,使其更能专注于战略分析和决策。
• DS3:设计将满足对信任和可靠性的需求,清晰解释系统的数据处理算法和标准。这包括透明的数据溯源、在报告中提供参考文献,以及使用户能够轻松理解和验证系统结论的工具。该设计还将通过随时间推移一致且经过验证的性能来促进渐进式信任建立。
• DS4:针对定制化和灵活性的主题,系统将提供高度的适应性,以适应各种分析风格和报告详细程度。它将包括调整分析深度、关注特定数据集以及无缝集成各种数据源的功能。
图3. SmartBook前端界面截图。在给定情境下,用户可以导航时间线(F1)、探索与事件相关的战略问题(F2)、阅读给定战略问题的总体摘要(F3)、控制信息的深度和长度(F4)、调查摘要中的所有主张(F5)、追踪每个主张到相应的摘要片段(F6)、调查源元数据(F7)以及阅读提取主张的上下文(F8)。
图4. 构建SmartBook的后端工作流程。给定对应特定时间线的文章,该图展示了获取章节、其章节标题及相应章节内容的过程。
上述四项设计策略助力塑造了SmartBook——一个为态势报告生成提供人工智能辅助的系统,旨在为分析师在处理新兴事件的时效性信息需求时提供可基于其开展工作的初版报告。SmartBook包含:1) 一个直观的用户界面(如图3所示),其设计策略源自§2.1.2;2) 一个后端框架(如图4所示),当给定来自各类新闻源的文件集合时,它能自动生成态势报告。
自动态势报告被组织成连贯的、按时间顺序排列的时间线,每条时间线跨度两周,以增强对事件发展的跟踪与理解。在这些时间线内,通过聚类新闻文章识别主要事件,形成后续章节的基础(见§2.2.1)。为引导详细的章节分析,我们采用了一种逻辑结构,以战略问题的形式自动生成章节标题,涵盖每个主要事件的各个方面(细节见§2.2.2)。SmartBook通过精准定位新闻文章中的相关主张(见§2.2.3),从战略视角生成内容以回应这些问题。每个章节包含聚焦查询的摘要以回答战略问题,提供事件背景与影响的全面视图(见§2.2.4)。这些摘要包含引文链接,便于专家进行事实核查与交叉验证。
SmartBook为效率而设计,对已有训练数据的任务(如事件标题生成、重复问题检测和主张提取)利用较小模型(Liu等人,2019年;Lewis等人,2020年)。相反,对于更复杂的任务——例如生成带引用的长文本摘要或识别战略问题,我们采用大语言模型(OpenAI,2021年;Achiam等人,2023年)。本节描述SmartBook内的各个组件,并强调SmartBook设计各个方面对用户(即情报分析师)和最终SmartBook报告接收者(即决策者,他们既是信息需求的发起者也是下游读者)的优势。
态势报告覆盖相当长时期的事件进展。因此,以时间线形式(图3中的F1)组织此类报告是有益的,这支持无缝更新报告(Ma等人,2023年)以纳入新事件,并有助于促进(Singh等人,2016年)用户跟踪和理解情境背景(基于DS1)。时间线通过按时间顺序组织事件并突出因果关系,辅助情报分析师理解事件进展并预测未来趋势。对于读者,尤其是不太熟悉该主题的读者,时间线提供了视觉指南,便于掌握场景中事件的顺序和重要性。我们的自动态势报告采用时间线以提供事件发展的连贯、时序化表征(DS1, DS2)。
在每个时间跨度内,首先使用基于词频-逆文档频率(TF-IDF)得分(Sparck Jones,1972年)的凝聚层次聚类算法(Jain和Dubes,1988年),将期间内的每日新闻摘要聚类成主要事件组,从而识别主要事件。最终,我们得到新闻片段簇,每个簇提供对一个主要事件的聚焦视图。然而,由于新闻摘要片段细节凝练,我们通过扩展新闻语料库来提升每个事件簇的全面性,如下所述。首先,为创建SmartBook的章节名称并将其用于额外新闻文章检索,为每个事件簇生成一个简洁标题。为此,我们利用一个基于序列到序列转换器(Vaswani等人,2017年)的语言模型BART(Lewis等人,2020年),该模型将事件簇内所有新闻片段的标题和文本拼接作为输入,并生成一个简短的事件标题。我们使用了在NewsHead数据集(Gu等人,2020年)上训练的模型来生成多文档标题。该数据集中,每个簇包含最多五篇新闻文章,一个人群源标题(最多35个字符)描述了该簇的主要信息。然后,我们使用这些章节名称作为查询,通过谷歌新闻检索额外的相关新闻文章。
态势报告应具有逻辑结构和描述性的章节标题(图3中的F2),以便情报分析师清晰且便捷地获取信息(DS2)。SmartBook不仅描述每个章节的事件细节,还旨在呈现支持决策和政策规划的战略见解。为引导此类详细分析,我们通过自动生成与每个主要事件相关的战略问题形式的章节标题来纳入逻辑结构。这些问题涵盖有深度的细节,如事件中行动背后的动机及其潜在的未来后果。
近期工作(Sharma,2021年;Wang等人,2022a年)表明,与主要生成设计用于简短具体答案的问题的现有方法(Murakhovs’ka等人,2022年;Du等人,2017年)相比,大语言模型(LLM)能够生成全面的、自然的问题,这些问题需要长文本且信息丰富的答案。本工作中,我们指导大语言模型(GPT-4)生成关于特定事件的战略问题,使用来自事件簇的新闻文章来锚定上下文并减少模型产生的幻觉(Ji等人,[n.d.];Maynez等人,2020年)。为确保生成问题的多样性,我们使用核采样(Holtzman等人,2019年)对多组问题进行采样。我们的分析显示,问题可能偶尔在不同集合间重复,如图4所示(重复项以蓝色高亮)。为解决此问题,使用在Quora重复问题对数据集上训练的RoBERTa-large模型(Liu等人,2019年)执行问题去重,从而将集合合并为与事件相关的单一且多样化的战略问题集合。
鉴于情报分析师工作的高风险性质及时间有限,他们需要能快速识别文档中关键信息的系统(DS2)。这使他们能专注于紧急事务,而无需筛选无关数据。因此,自动态势报告生成应能识别和提取跨多个文档中最与场景相关且至关重要的信息(图3中的F5)。态势报告读者受益于信息显著性,因为他们能获得简洁、相关的态势概览。需要突出要点,以增强可读性和清晰度。此外,我们还呈现每个新闻源的偏见(取自AllSides),以帮助分析师从不同角度考量所呈现的信息。
为向读者提供对事件背景的全面理解,需要从源文档(即新闻文章)中搜寻不同的主张和假设,以帮助解释情境(Toniolo等人,2023年)。我们采用问答(QA)方式来识别与给定战略问题相关的主张,这得益于定向查询能够系统地从新闻文章中提取相关主张的能力,如近期研究所示(Reddy等人,2022b年,a年)。我们的QA流水线使用一个基于转换器的RoBERTa-large编码器模型(Liu等人,2019年),该模型已在SQuAD 2.0(Rajpurkar等人,2018年)和自然问题(Kwiatkowski等人,2019年)上训练。该模型将分割成片段的新闻语料库连同战略问题作为输入,并输出对这些问题的答案提取。包含这些答案的相应句子被视为提取的主张。然而,高置信度误报的风险(Chakravarti和Sil,2021年)使得有必要对这些答案进行验证(Reddy等人,2020年;Zhang等人,2021年)。为此,利用一个答案句子选择模型(Garg等人,2020年)来根据战略问题验证每个上下文。该模型是一个以RoBERTa-large为骨干的二元分类器,在自然问题(Kwiatkowski等人,2019年)和WikiQA(Yang等人,2015年)等数据集上训练,并输出范围从0(不正确)到1(正确)的验证分数,用于选择前5个最相关的上下文进行摘要生成。
考虑到基于大语言模型(LLM)的摘要中的幻觉问题(Ji等人,2023年;Li等人,2023a年;Bang等人,2023年),对于态势报告生成而言,事实性远重于创造性。可靠的态势报告必须基于可验证的来源以确保可信度(DS3)。这支持分析师得出稳健、基于证据的结论,而嵌入式链接为希望深入研究的读者提供了跳板(图3中的F6、F7、F8)。此外,我们提供不同详细程度的摘要——简版(2-3句)、标准版(4-6句)和扩展版(2段)——以满足不同读者偏好(图3中的F4)(DS4)。
使用为每个章节获取的战略问题作为章节标题,我们纳入聚焦查询的摘要生成来生成每个章节的内容。基于相关主张上下文(图3中的F3)为SmartBook中的每个章节生成一个简洁摘要。近期工作(Goyal等人,2022年;Bhaskar等人,2022年;Reddy等人,2022c年)表明,人类偏好基于提示的大语言模型(Brown等人,2020年;Chowdhery等人,2022年)生成的摘要,胜过在文章-摘要对上微调的模型(Lewis等人,2020年;Zhang等人,2020年;Liu等人,2022年),原因在于更好的可控性和更容易扩展到新场景。对于摘要生成,将前5个最相关的上下文(来自§2.2.3)和指令输入大语言模型(GPT-4),指令要求其根据给定的战略问题进行摘要并包含引用。这种方法不仅通过基于主张上下文有助于保持准确性,还通过允许对照引用来验证而增强了摘要的可信度。