大语言模型如何改变现代战争：ChatGPT 是否适用于军事领域？

以 ChatGPT 为代表的大型语言模型（LLM）的出现彻底改变了数字化转型，并将人工智能（AI）定位为其核心。LLMs 在理解和生成人类语言方面的卓越能力已在内容创建和客户服务等各行各业得到广泛应用。然而，它们在军事领域的潜力仍未得到充分挖掘。

本分析报告探讨了 LLM 在现代战争中的变革潜力，并评估了其在军事环境中的适用性。它深入探讨了 LLM 的技术方面，强调了 LLM 利用深度学习原理自主生成上下文相关文本的能力。此外，它还讨论了潜在的军事应用，如加强决策过程和改进情报、监视、目标获取和侦察（ISTAR）行动。

2022 年 10 月，OpenAI 发布了新颖的人工智能（AI）驱动聊天机器人--著名的 ChatGPT（Chat Generative Pre-trained Transformer）。从那一刻起，世界进入了一个新时代，人工智能成为数字化转型的核心。转眼间，整个地球都获得了使用先进的人工智能工具的特权，这种工具可以在法律考试中取得成功，可以编写计算机代码、学校论文、小说和烹饪食谱，还可以理解图片的内容并得出逻辑结论，而且往往以类似人类的方式进行。然而，很少有人深入了解什么是 GPT 及其工作原理。

虽然人工智能和机器学习（ML）已经成功地应用于模式识别、过滤和其他用途，但其范围狭窄，只专注于特定任务。相比之下，ChatGPT 和类似的文本生成系统范围更广，本质上更接近人类领域。它们在理解、生成和处理人类语言方面的卓越能力，使其在私营部门的应用多种多样，包括内容创建、语言翻译、医疗诊断、客户服务和科学研究。

许多人将这项技术归类为颠覆性技术，分析其对全球格局的影响。事实上，像 ChatGPT 这样的人工智能解决方案为个人和企业提供了强大的语言处理工具，使他们能够更轻松地获取海量信息，更高效地处理日常任务，从而改变了我们与计算机的交互方式，并改变了我们的工作方式。

本文旨在概述在更广泛的人工智能领域中支持 ChatGPT 的技术。本文还将介绍与这些技术的部署相关的众多挑战，提出潜在的军事应用，最后为军事领域可能的安全和成功应用提出值得考虑的一般指导原则。

生成式人工智能和大型语言模型

ChatGPT 和类似的文本生成系统由大型语言模型（LLM）提供支持，这是生成式人工智能的一种形式。后者包括更广泛的人工智能系统类别，旨在通过利用学习到的模式和数据自主生成新内容或输出。从内容上看，这种技术涵盖了一系列内容类型，包括文本、语音、视频和图像，每种输出都不需要明确的指令。与受预设规则或特定输入约束的传统人工智能系统不同，生成式人工智能具有独立创造与上下文相关的新衍生输出的能力。

具体来说，LLM 是一种统计模型，利用深度学习（DL）原理和复杂的内部机制来创建任何特定语言的单词序列，从而生成连贯且与上下文相关的文本。它们的主要功能包括分析文本语料库中的模式和关系，从而获得知识和能力，根据前面的上下文评估特定词语或词语序列的统计可能性，生成具有自然或类似人类品质的内容。

LLM 的运行包括两个主要阶段：训练和生成。训练包括两个阶段。首先，模型从大量文本数据集中学习统计模式，并调整其数十亿个内部参数，以开发一般的单词预测能力。其次，利用人类对模型输出的反馈进行微调，优化特定语境下的单词预测准确性，从而形成模型的最终形式。训练完成后，系统会根据提示应用所获得的知识生成新的输出，并根据先前生成的内容和提供的上下文不断完善其输出，直到达到所需的结果或完成条件。

2020 年，OpenAI 推出了 GPT-3，这是第一个在各种自然语言处理（NLP）任务中表现出卓越性能的模型。当时，GPT-3 在文本补全、翻译、摘要和问题解答方面表现出色，赢得了公众的广泛关注。GPT-3 令人印象深刻的自学能力使该模型只需最少的示例或训练就能执行任务。它的后继者 GPT-3.5 是 ChatGPT 的革命性模型，功能更加强大，并提供了更广泛的 NLP 功能。今年早些时候推出的 GPT-4 是 OpenAI 的最新模型，它将继续推动 NLP 的发展，凭借更广泛的常识和高级推理能力提供更高的准确性。此外，该模型还提供文本和图像输入和输出。

LLM 在军事领域的潜在应用

虽然军事和国防部门已经研究了各种人工智能应用，包括网络安全、海事安全、关键基础设施保护等，但目前还没有公开的 LLM 技术应用实例。然而，LLM 在组合和分析来自不同来源的原始数据方面的卓越能力，以及它们的 NLP 能力，使军事领域成为一个潜力巨大的领域。

利用这项技术来加强包括规划和决策在内的若干流程，可使空中军事行动受益匪浅。例如，人工智能的一个可能应用是通过支持参谋人员制定、评估和推荐可用的行动方案（COA），协助军事指挥官以最快的速度做出正确的决策。LLM 还可以协助情报、监视、目标捕获和侦察（ISTAR）流程，协助人类操作员实时收集、分析和评估数据，从而缩短 OODA 循环，在战场上提供决定性优势。另一个潜在应用领域可能是军事演习，生成式人工智能工具可以协助创建更逼真的场景，甚至可以增强人员不足的红军力量，从而进行更好、更高效的训练。

图：LLM 可协助人类操作员实时收集、分析和评估数据，从而为情报、监视、目标捕获和侦察（ISTAR）流程提供潜在帮助。

与 LLM 技术相关的挑战

然而，必须承认，全面整合 LLM 可能会遇到各种挑战，如确保训练数据的质量、完善模型能力、管理资源成本以及解决道德、法律和偏见问题。应对这些挑战对于确保采用 LLMs 真正增强现有流程而不损害军事行动的完整性和安全性（更不用说更广泛的社会价值和利益）具有决定性意义。

道德挑战
- 数据中的偏见

需要注意的是，LLM 是使用海量数据集进行训练的，这些数据集包含固有的、通常是隐蔽的偏见，如地理、性别、社会、伦理、道德和宗教偏见。如果不解决这些偏见，LLM 的输出可能会延续或放大现有的偏见，导致错误、不公平或歧视性的结果。在军事行动中，LLM 生成的信息或决策支持系统中的偏见可能会产生严重后果，包括可能导致歧视性目标选择、不适当的任务优先级排序或资源分配不足。

要解决偏差问题，就必须认真关注所使用的训练数据，并制定和实施减少偏差的策略。研究人员正在研究减少偏差的技术，如数据集整理、模型微调和对输出结果的持续评估，以确保输出结果的质量。

问责问题

此外，使用 LLM 或任何其他类型的人工智能技术都会引起人们对受人工智能生成的信息影响或基于人工智能生成的信息做出的决策和行动的问责问题的关注。确保问责制涉及透明度、可追溯性以及将决策归因于特定个人或系统的能力。然而，研究人员认为，"人工智能和 ML 系统的内部运作很难被人类理解，被认为是黑箱方法，用户只能看到输入和输出。

这种说法对此类系统的可信度提出了质疑，因为 LLM 内部运作的不透明性使得在出现错误、偏差或有争议的输出时，很难确定责任归属。另一方面，我们也应该考虑人类决策过程的有效性和透明度，因为人脑的不完美特性往往会导致决策错误或无效、难以解释或受偏见影响。人脑有限的处理能力可能会放大这种现象。

另一个值得我们考虑的方面是，那些将作战优势置于道德和伦理考虑之上的对手可能会采用 LLM 系统，尽管它们存在缺陷和弊端。其他国家的军队，甚至是联盟内部的军队，可能会效仿他们的做法，因为害怕在战场上失去优势而采用和利用类似的不完善的人工智能解决方案。在这种可能的未来作战环境中，影响任务成功、违反人类价值观和危及生命的风险可能会超出我们有效管理的能力。

财务挑战
- 财务成本

对一些国家的军队来说，长效机制的经济负担可能是一个重大挑战，因为除了能力建设所需的基本投资外，培训和运行这些系统的相关费用可能非常高昂。培训大型 LLM 需要大量的资金投入，需要购买高性能硬件，如服务器、存储和网络设备，还需要消耗大量能源。此外，获取和管理不同的数据集以获得最佳性能需要专业技能和大量资源。在实时应用中部署 LLM 还需要持续的运营费用，包括维护和运营成本。

为进一步强调该技术带来的挑战，我们应考虑到，受国防预算和有限资源限制的国家可能会发现采用和整合该技术是不可行的，这可能会导致联盟内部出现技术和能力差距。一个值得研究的解决方案是建立机制，资助和开发供北大西洋公约组织（NATO）盟国之间使用的共享人工智能系统，类似于北约的机载预警与控制系统（AWACS）计划。

熟练劳动力成本

培养熟练劳动力是能力建设的另一个关键方面，特别是考虑到全球人工智能专家的短缺。军队应投资于培训和教育计划，使其人员掌握数据科学、ML、NLP 和其他相关学科的专业知识。要为军事应用微调 LLM，就必须增加研发投资。研究工作应着眼于提高模型性能、解决局限性和偏差，并对 LLM 进行定制，以满足特定军事用途的需要。

技术挑战
- 连贯的战略

在组织内部成功整合人工智能解决方案通常取决于是否制定了协调一致的战略和强有力的商业案例。对于 LLM 而言，这意味着军队不应在未深入分析和评估其流程以及考虑更广泛的作战环境的情况下，仓促决定采用这项技术。否则，缺乏这两个基本要素--连贯的战略和强有力的业务案例--很可能会危及项目的成功。

遗留系统和数据质量

将 LLM 系统与现有遗留系统集成是另一个重大挑战，因为很可能需要对系统进行大量修改，从而增加了无法实现预期结果的风险。另一个关键问题涉及用于训练人工智能系统的数据质量，因为低质量的数据会严重影响算法的功能，破坏获得准确结果的潜力，并产生相应的后果。

幻觉

在研究 LLM 时还存在幻觉问题。这一术语指的是一种现象，即 LLM 生成的输出听起来似是而非，完全是捏造的，或者脱离了输入或上下文。产生幻觉的原因有很多。出现幻觉的原因多种多样，其中包括大量未固化的训练数据、缺乏对上下文的理解、罕见和不寻常的输入，以及 LLMs 接受训练时使用的语言建模技术。因此，LLM 偶尔会产生超出其预期目的的输出，或者在其反应中表现出过度自信。

不幸的是，幻觉和过度自信的反应可能并不明显，可能会在军事行动中造成风险，导致错误信息、决策失误和潜在的任务失败。研究人员正在研究几种缓解策略来解决这个问题，包括人工监督和专门设计的算法来持续检查输出。无论如何，我们都应开发和建立有效机制来检测和缓解幻觉，以确保 LLM 生成信息的可靠性和有效性。

北约的网络、人工智能和 EDT 战略

北约对人工智能、量子技术和自主系统等新兴和颠覆性技术（EDTs）表现出极大的兴趣。北约已将人工智能确定为九大优先技术领域之一，以重点开展创新活动。北约 2022 年战略概念》指出："创新技术为北约军队提供了新的机遇，帮助他们变得更有效、更有韧性、更具成本效益和可持续性。'该文件还申明，电子战技术既带来机遇也带来风险，它们正在改变冲突的性质，获得更大的战略重要性，并成为全球竞争的关键舞台。

此外，为了促进以合乎道德的方式使用人工智能系统，美国国防部（DoD）于 2020 年发布了在军队中合乎道德和合法地采用人工智能系统的原则，其中指出，“美国必须与我们的盟友和伙伴一起，加快采用人工智能，并在其国家安全应用中发挥领导作用，以保持我们的战略地位，在未来战场上取得胜利，并维护基于规则的国际秩序”。北约也发布了类似的原则，包括合法性、问责制、可解释性（原文如此）、可追溯性、可靠性和减少偏见，以应对人工智能在军事领域带来的挑战。

结论

利用 LLMs 协助人类和加强军事进程的潜力前景广阔，可为实现作战甚至战略目标提供显著优势。LLMs 能够处理、整合和分析来自不同来源的数据，并以相关的速度对人类的输入做出类似于人类的反应，从而支持战略敏捷性、改善态势感知、改进决策过程和高效的资源分配。此外，这项技术还能帮助识别盲点，提供有价值的见解，并协助完成复杂的认知任务。

然而，训练数据中的偏差、对模型输出的问责以及潜在的幻觉都凸显了在决策过程中保持人为监督和责任的重要性。承认这些挑战并实施适当的缓解机制，对于将 LLM 适当纳入军事决策过程至关重要。此外，培训和运行这些系统所需的大量投资必须与它们为军事行动带来的潜在好处相平衡。我们还应牢记，有些军队将难以承受相关的财务成本。与此相反，其他国家将利用这种技术带来的好处，从而可能在联盟内部造成技术差距。

由于这项技术目前面临的挑战和弊端，必须将 LLM 视为辅助工具，而不是自主决策者。人的因素仍应是核心，由 LLM 提供数据驱动的见解和建议，补充人类的专业知识，形成 “人在环中”（HITL）系统。采用这种支持性方法可以充分利用 LLM 的优势，同时在军事行动中保持人的能动性、问责制和责任感。

然而，在未来战争中，军事指挥官可能需要快速应对复杂而紧张的局势，尤其是在面对近在咫尺的竞争对手时。在这种情况下，利用 LLMs 组成半自主的 “人在回路中”（HOTL）甚至自主的 “人脱离回路”（HOOTL）系统，可能是在战场上保持优势的必然选择。

科学家和研究人员正在努力实现人工通用智能（AGI），而 LLM 也在不断变得更容易实现、更有效率，它们对社会的破坏性和变革性影响将是巨大的。这项技术对个人和社会的潜在风险也相当大，这凸显了政府和组织将人工智能监管作为优先事项的必要性。强调这一重点对于保护技术、降低潜在风险和实现预期效益最大化至关重要。

成为VIP会员查看完整内容