近年来,大型语言模型(LLM)的发展和普及已对社会多个部门产生显著影响。美国军方认为应立即采纳并试验这一新兴技术,以通过更高效的工作流程满足日益增长的作战需求,保持对近似同级对手的技术优势,并发现其局限性和脆弱性,这一点至关重要。本文开发了一个端到端的框架,涵盖从LLM选择到文档评估的领域特定文档生成。我们开发的领域特定文档生成框架融合了多种技术,包括提示工程(PE)、检索增强生成(RAG)、一种代理式方法以及一种LLM作为评估器的方法。为了验证该框架,我们选择了一个"战争路径推演"(road-to-war)文档作为测试用例,该文档通常用作国防部(DoD)兵棋推演、作战、训练和分析界进行想定开发的起点。使用此框架,能够生成看似合理的领域特定文档,这些文档经专家验证具有实用性,并且与人类生成的示例文档没有显著区别。我们的研究表明,LLM可以增强针对文本生成任务的领域特定工作流程,并且通过利用这项快速发展的技术可以实现显著的时间节省。
美国军方必须加强和扩大对生成式AI技术的探索,以确保近似同级对手无法获得技术优势。该技术仍处于起步阶段,美国军方现在必须投入时间和资源来理解、探索和运用LLM,以取得对近似同级对手的决定性优势。使用LLM技术的一个关键组成部分是,军事战略家和关键领导者需要了解选择、修改和开发LLM模型的最佳方式,以及随后如何托管该模型及任何相关应用程序,以实现军事人员的广泛使用和访问。
存在许多模型选择框架(参见模型选择方法章节),但通常最基本也是最重要的选择,即在给定用例中决定性能和性能指标的,是选择使用专有模型还是开源模型。考虑到国防部的信息/数据限制,以及LLM可能需要针对特定用例进行修改和专门化,开源模型可能更适合军事领域。本工作旨在建立一个专门的、开源的LLM框架,用于领域特定文档生成,该框架使用、比较并结合多种技术,可以在选定的用例上进行测试,并且可以在信息受限的环境中执行(例如,托管在本地硬件和基础设施上)。
本研究的主要目标是开发一种能够生成高度专业化、领域特定文档的方法论,该文档可在受限的计算环境中使用。我们将通过开发一个系统化、顺序化的框架来比较开源模型的领域特定文档生成性能(采用性能增强技术和方法论)与类似的人类生成文档,从而为当前的知识体系做出贡献。由于通用专有模型目前尚不具备生成高度专业化、领域特定文档的能力,我们的工作旨在开发、测试和验证一个可在受限或简陋计算环境中使用的文档生成框架。一个能够生成与人类生成文档无显著区别、且对领域用户具有实用性的领域特定生成框架,有潜力通过增强现有的非LLM驱动的工作流程,在组织效率和时间节省方面带来显著效益。
本工作分为六个章节。在第一章和第二章奠定基础并讨论问题陈述和研究重点之后,第三至第五章将探讨三种不同的技术/方法论(包括各章节的实验结果),第六章作为结论,讨论贡献和未来工作。