近年来,大型语言模型(LLM)的发展和普及已对社会多个部门产生显著影响。美国军方认为应立即采纳并试验这一新兴技术,以通过更高效的工作流程满足日益增长的作战需求,保持对近似同级对手的技术优势,并发现其局限性和脆弱性,这一点至关重要。本文开发了一个端到端的框架,涵盖从LLM选择到文档评估的领域特定文档生成。我们开发的领域特定文档生成框架融合了多种技术,包括提示工程(PE)、检索增强生成(RAG)、一种代理式方法以及一种LLM作为评估器的方法。为了验证该框架,我们选择了一个"战争路径推演"(road-to-war)文档作为测试用例,该文档通常用作国防部(DoD)兵棋推演、作战、训练和分析界进行想定开发的起点。使用此框架,能够生成看似合理的领域特定文档,这些文档经专家验证具有实用性,并且与人类生成的示例文档没有显著区别。我们的研究表明,LLM可以增强针对文本生成任务的领域特定工作流程,并且通过利用这项快速发展的技术可以实现显著的时间节省。

美国军方必须加强和扩大对生成式AI技术的探索,以确保近似同级对手无法获得技术优势。该技术仍处于起步阶段,美国军方现在必须投入时间和资源来理解、探索和运用LLM,以取得对近似同级对手的决定性优势。使用LLM技术的一个关键组成部分是,军事战略家和关键领导者需要了解选择、修改和开发LLM模型的最佳方式,以及随后如何托管该模型及任何相关应用程序,以实现军事人员的广泛使用和访问。

存在许多模型选择框架(参见模型选择方法章节),但通常最基本也是最重要的选择,即在给定用例中决定性能和性能指标的,是选择使用专有模型还是开源模型。考虑到国防部的信息/数据限制,以及LLM可能需要针对特定用例进行修改和专门化,开源模型可能更适合军事领域。本工作旨在建立一个专门的、开源的LLM框架,用于领域特定文档生成,该框架使用、比较并结合多种技术,可以在选定的用例上进行测试,并且可以在信息受限的环境中执行(例如,托管在本地硬件和基础设施上)。

本研究的主要目标是开发一种能够生成高度专业化、领域特定文档的方法论,该文档可在受限的计算环境中使用。我们将通过开发一个系统化、顺序化的框架来比较开源模型的领域特定文档生成性能(采用性能增强技术和方法论)与类似的人类生成文档,从而为当前的知识体系做出贡献。由于通用专有模型目前尚不具备生成高度专业化、领域特定文档的能力,我们的工作旨在开发、测试和验证一个可在受限或简陋计算环境中使用的文档生成框架。一个能够生成与人类生成文档无显著区别、且对领域用户具有实用性的领域特定生成框架,有潜力通过增强现有的非LLM驱动的工作流程,在组织效率和时间节省方面带来显著效益。

本工作分为六个章节。在第一章和第二章奠定基础并讨论问题陈述和研究重点之后,第三至第五章将探讨三种不同的技术/方法论(包括各章节的实验结果),第六章作为结论,讨论贡献和未来工作。

  • 第一章: 本章向读者介绍LLM和生成式AI,并概述了工作的动机。首先描述了这项新兴技术如何在数月内席卷全球,并介绍了其在军事领域的潜在影响以及美国和近似同级对手采纳该技术的现状。我们概述了选定的军事用例(战争路径推演文档生成),该用例可通过应用LLM技术/方法论产生影响。最后,我们对开发的框架进行了简要介绍,以便于后续章节对框架组件进行解释。本章为深入探讨问题空间的更技术性解释奠定了基础和背景,并提供了工作的结构和组织。
  • 第二章: 本章首先对LLM及其使用和操作的细节进行了更精确的定义。将涵盖LLM相关的历史先驱和自然语言处理(NLP)主题的简要概述,以及该领域的最新进展。还将探讨模型选择方法、开源与专有模型的比较以及模型选择的军事特定考量。在综合当前LLM技术发展水平(SOA)以及概述文本生成和相关工作之后,将提出问题陈述和初步研究问题以结束本章。
  • 第三章: 第三至第四章的结构将基本保持一致,包括详细的文献综述、给定方法论/技术的描述、探索该技术的相关研究问题和假设、实验设计和程序以及结果。就第三章而言,将讨论使用专有模型的初步工作以及简单的提示工程方法。
  • 第四章: 本章首先描述RAG以及为何有必要将其集成到我们的框架中(模型缺乏生成准确的"决胜行动训练环境"相关数据的能力)。我们还将探讨为何选择此方法而非监督式微调方法。本章最后讨论RAG方法论、实验(包括试点测试以及在框架中添加编辑过程)和结果。
  • 第五章: 本章探讨了将基于代理的方法与RAG流水线实现相结合的集成方法。本章最后讨论代理式框架的实验和结果。
  • 第六章: 本章是对第四至五章讨论的贡献的概要总结,并讨论了研究参与者如何评估三份文档的结果所蕴含的意义。同时,明确指出了研究过程中识别的可能影响结果的局限性和偏差,以及可从本论文延伸的LLM文本生成领域的未来可行工作和该领域的新兴趋势。
  • 附录A: 技术细节,包括研究使用的实验平台信息、开源模型选择和Hugging Face仓库的详细信息、LLM变量、数据抓取程序和高级技术。
  • 附录B: 定义了本工作中使用的常见LLM术语。
  • 附录C: 使用简单提示工程技术进行初步实验的补充信息。
  • 附录D: 本附录包含研究程序、协议、脚本和信息表。
  • 附录E: 提供了文档评估指标的额外可视化图表。
成为VIP会员查看完整内容
4

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《大型语言模型 (LLM) 对比研究》美海军最新报告
专知会员服务
81+阅读 · 2024年6月28日
【2022新书】深度学习归一化技术,117页pdf
专知
28+阅读 · 2022年11月25日
《军事行动自动化》【译文】2022最新报告
专知
67+阅读 · 2022年11月13日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员