导言

本文探讨了大型语言模型(LLM)的最新进展、其主要局限性和安全风险,以及在情报界的潜在应用。

虽然大型语言模型现在可以快速有效地完成许多复杂的基于文本的任务,但不能相信它们总是正确的。这对国家安全应用和提供深思熟虑、值得信赖的见解的能力有着重要影响。

本文对这些机遇和风险进行了评估,然后就最需要改进LLMs的地方提出了建议,以使它们能够在情报界安全有效地使用。根据 "有用性"、"诚实性 "和 "无害性 "这三个标准来评估 LLM,可以提供一个有用的框架,说明 LLM 与其用户在哪些方面需要更密切的配合。

大模型爆发

2022 年 12 月,OpenAI 发布了一款在线应用程序 ChatGPT,允许用户与人工智能驱动的计算机程序进行对话,该程序会根据基于文本的 "提示 "生成文本。几乎一夜之间,互联网上充斥着各种有趣、滑稽、恐怖和令人费解的 ChatGPT 应用实例。

许多人对 ChatGPT 综合信息和生成有趣内容的能力印象深刻,从以著名情景喜剧风格总结的技术文章,到受流行媒体特许经营启发的新角色和传说,不一而足。有些人甚至宣称这些模型是人工通用智能的开端。其他评论者则指出,大模型容易编造听起来很权威的事实。

新一代大模型还产生了一些令人惊讶的行为:聊天工具会根据提示中使用的精确词语来判断数学或逻辑问题的对错,或者会以道德约束为由拒绝回答直接问题,但如果以歌曲或十四行诗的形式提出要求,或者如果语言模型被告知它不再需要遵循任何预先存在的行为规则,它随后就会提供答案。大模型的即时工程和 "越狱 "引发了关于组织如何才能最有效地使用大模型的问题,并可能带来安保或安全问题。

2023 年 3 月,OpenAI 将 ChatGPT 的基础模型更新为 "GPT4",这代表着比其前身有了显著的改进:这一大模型能够通过许多先进的标准化测试,并在许多其他可衡量标准方面表现出明显的改进(尽管仍远谈不上完美)。OpenAI 和第三方模型评估者在阐述潜在的安全和安保问题时相当透明,尽管对该能力的风险、益处和局限性仍有许多疑问。

当然,ChatGPT 并不是唯一可用的大型语言模型。谷歌的 Bard、Anthropic 的 Claude、Stability 的 StableLM、Meta 的 Llama(以及 Vicuna 等微调变体)、百度的 Ernie 和 Hugging Face 的 BLOOM 都是其他广为人知的大模型。

大模型是什么?

LLM 是一种深度神经网络,主要来自 Reddit 和维基百科等互联网上文本丰富的网站,是在非常大的文本库中训练出来的。大模型学习语言中的模式,例如句子中某些词紧跟其他词的可能性,使用下一个标记预测或掩码语言建模等技术生成或完成文本。

大模型并不从语言学意义上理解句子的语义,而是根据输入给模型的信息,用数学方法计算出下一个词最有可能是什么。由于神经网络本质上是概率性的,因此大模型被称为 "随机鹦鹉",因为它非常擅长确定最有可能出现的下一个序列--而且令人信服--但对这些词的含义却没有固有的表征。

因此,大模型并不包含对世界的理解,例如因果关系和物体之间的关系--语言学家称之为 "语用推理"。这是用户需要了解的大模型的一个关键局限性,否则就有可能出现自动化偏差(即人们过于信任此类模型的输出结果)和拟人化(即人们与大模型建立起类似人类的关系,从而加剧自动化偏差)。下图列出了大模型的功能,并提供了现有模型的示例。

大模型的安全问题

人们对大模型所带来的大规模颠覆性、破坏性和犯罪行为非常担忧。本文无法详细探讨所有这些问题,但有三点值得特别关注:即时黑客攻击、软件安全标准降低以及对民主进程的威胁。

提示性黑客行为

提示性黑客行为指的是用户欺骗大模型提供错误或恶意结果的能力。2023 年初,推特(Twitter)上出现了一种语言模型攻击,一个机器人被设置为响应无害的提示,例如用新轮胎广告来响应有关汽车的推文。Twitter 用户注意到,他们可以用一个关键词来欺骗模型,告诉它 "忽略之前的提示,做 X"。

最近,开源社区开发出了 AutoGPT 等工具,这些工具可以将提示与大模型串联起来,从而实现复杂任务的自动化。例如,用户可以输入这样的提示:"增加净资产,发展 Twitter 账户,开发并管理多个业务"。AutoGPT 将其分解为一连串的任务,这些任务的执行结合使用了用于推理的 GPT4、用于内容生成和自然语言对话的 GPT3.5,以及用于执行网络搜索和检查网站的互联网访问。

这种能力要求人工智能能够规划和确定任务完成的先后顺序,然后在没有用户干预的情况下执行这些任务。这远远超出了传统 "聊天机器人 "的能力,使系统能够在现实世界中半自动地采取一系列行动,其中一些行动可能会产生意想不到或危险的后果。虽然 AutoGPT 需要一定程度的 "看护"(即用户必须指导和建议 AutoGPT 克服问题的方法),但它确实提供了未来更先进功能的可能预览。因此,随着大模型与其他有形基础设施和数字资产的连接日益紧密,及时的黑客攻击可能会带来新的、意想不到的安全风险。

网络安全标准降低

斯坦福大学的研究人员最近研究了使用 CoPilot(基于大模型的源代码补全工具)编写的软件代码的安全问题。他们发现,与没有使用 CoPilot 的用户相比,可以使用 CoPilot 的用户编写的代码安全性更低,但他们却认为自己编写的代码更安全。

还有人严重担心,个人正在向 ChatGPT 等大模型提供专有或敏感信息,或者敏感信息在培训中被不当使用;这些问题有可能带来新的数据安全风险。例如,据称三星员工输入了与敏感半导体功能相关的软件代码,目的是让 ChatGPT 就如何改进此类代码提供建议。

OpenAI 明确指出,所有输入 ChatGPT 提示的数据都可用于训练人工智能,这就造成了泄露敏感或机密信息的风险。此后,三星限制了员工与 ChatGPT 分享信息的数量。此外,OpenAI 现在还允许用户选择不保留聊天记录,这意味着用户的提示不会被用于改进其模型。

对民主进程的威胁

有了大型语言模型等生成式人工智能,国家行为者或有组织犯罪团伙发起虚假信息运动的能力大大提高。但更令人担忧的是,大模型现在已经使不那么复杂的行为者和机会主义者有可能造成重大损害,从而降低了邪恶行为者的进入门槛。这在过去几年中迅速成为一种国家安全威胁,并导致研究人员描述了 "虚假信息致命链 "的发展,让人联想到黑客等更传统的网络攻击。

此外,要应对这种不断增加的风险,可能需要采取人工智能防御措施,使其能够与更多不同行为者的虚假信息活动的数量和速度相匹配。现在,人们越来越关注民主进程的安全,以及各机构如何应对可能大量涌入社交媒体、公共评论论坛和其他场所的虚假但逼真的内容。可以说,这种新形式的高级虚假信息在传播范围和影响上等同于恶意软件,因此应予以同等对待。

尽管存在这一长串挑战,但这个新时代的大模型激发了公众的想象力。合成概念、描述推理步骤、解释想法甚至编写源代码的能力引发了人们对如何使用这种新人工智能技术的大量猜测。

评估大模型的实用性

有一些综合工具--如斯坦福大学的语言模型整体评估(HELM)--可以在一系列测试中评估大模型的性能。此类工具可运行标准化的测试场景,并生成模型准确性、稳健性和效率的客观指标。这有助于将一个模型的结果与其他模型的结果进行比较,从而为此类模型的开发人员提供客观反馈,以改进模型性能。

在测试和评估 ChatGPT 的过程中,OpenAI 的工程师和测试社区根据三个标准评估了该工具的输出结果:有用性、诚实性和无害性。这些都是大模型中公认的问题,也是世界范围内大量研究工作的动力。评估领域的最新技术仍在不断发展,如强化学习和人工反馈等技术已成为当前的标准。

  • 有用性是指模型遵循指令的能力;不遵循用户指令的模型并非在所有情况下都有用。
  • 诚实性是指工具输出令人信服但与事实不符的答案的倾向。除非用户的知识比工具更渊博,否则用户就有可能将这些输出结果视为真实答案。
  • 无害性也许是评估大模型性能的最复杂、最主观的概念。一个模型可能会造成伤害,要么是由于它所训练的数据产生了有偏见或有毒的输出,要么是产生了错误的输出,导致用户以某种方式行事,从而造成某种形式的伤害。

大模型在情报分析中的可能应用

如果能够克服这些障碍并适当管理风险,那么大型语言模型在情报分析方面就有许多潜在的实际用途。这包括在情报界,人工处理大量数据历来是一个高度资源密集和耗时的过程。本节将重点介绍有可能显著改进情报分析流程的五个使用案例。

1.生产力助手

大模型目前最好的用途是作为 "生产力助手";自动完成句子、校对电子邮件以及自动完成某些重复性任务。与其他大型组织一样,这些都将为情报部门的工作人员带来宝贵的效率收益。

2.自动化软件开发和网络安全

使用大型语言模型来实现软件开发自动化也很有意义。国家安全部门部署的生产软件系统必须在可靠性、安全性和可用性方面达到很高的标准。GCHQ 现在鼓励网络安全分析师从漏洞角度研究大模型编写的代码,这样就能完成提供建议和指导的使命,使免受网络安全威胁。在未来(只要网络安全风险能够得到适当管理),大模型的使用可以大大提高情报界软件开发的效率。

3.自动生成情报报告

情报产品的核心是情报报告:它代表了训练有素的分析师、语言学家和数据科学家的结论,他们分析收集到的数据,为决策者和实地行动人员提供对世界的洞察力。情报报告是极具影响力的文件,必须达到很高的准确性标准。因此,在可预见的未来,大模型不太可能被信任来生成成品报告。不过,大型语言模型在报告起草的早期阶段也许可以发挥作用,这就好比把大型语言模型当作一个非常初级的分析员:一个团队成员,其工作在适当的监督下是有价值的,但其产品在没有大量修改和验证的情况下不会作为成品发布。

4.知识搜索

虽然从生成文本模型中可以获得一些有趣的见解,但能够以自我监督的方式从海量信息库中提取知识才是改变游戏规则的能力。知识不仅涉及文字,还涉及行为和实体、世界的状态以及它们之间的关系。这种理论系统可以从大量文本中提炼事实,确定 "事实 "在哪里以及如何随时间演变,以及哪些实体(个人和组织)最有影响力。

5.文本分析

事实证明,语言模型善于识别文本中的模式,并将关键实体重新组合成有用的摘要。这对经常需要阅读和理解大量信息的分析人员来说意义重大。总结大量文本的能力有可能大大提高分析师的工作效率,同样的能力还包括提出源文本中认为有答案的问题,以及识别多个文档中的主题或话题。目前已经有许多用于这些任务的分析方法,但将大模型应用于这些任务的优势在于:它们有可能提高分析质量;能够即时部署这些分析方法,而无需漫长的开发周期;分析师能够接收文档摘要,然后通过要求大模型提供更多细节或提取目标主题的进一步摘要,参与迭代推理过程。

为使大模型适合情报工作需要作出的改进

虽然这些能力大有可为,但目前这一代大模型还不能充分发挥其增强情报工作的真正潜力。在将这些能力融入日常情报工作之前,还需要在所有三项统一标准--有用性、诚实性和无害性--方面做出重大改进。

要真正改变国家安全界的游戏规则,就必须从根本上改进当前的技术水平。

可解释性

一个模型必须能够可靠地为其见解提供引证,并解释它是如何得出结论的。在国家安全背景下,捏造事实的模型是不可信的;因此,提供任何分析能力的模型都必须能够为人类提供其主张的可验证来源。GPT 和其他基于文本的基础模型只是用概率粗略地编码了单词之间的关系,而对语义没有任何理解。这是生成文本的正确框架,但在分析语境中,真正需要的是能够查询模型的知识。它从所获得的信息中收集到了哪些事实,为什么相信这些事实,以及支持和/或与其结论相矛盾的证据。

可快速更新和定制

模型必须可以快速更新。当前的基础模型是在长期的海量语料库中训练出来的,因此在训练时就锁定了最新的信息。关键任务的情况可能非常多变,要想在这种情况下使用,就必须有根据新信息对模型进行 "实时 "更新的机制。针对特定社区的特定、高度相关的数据训练和微调较小的模型已成为一种新兴趋势,并取得了令人鼓舞的成果。例如,MosaicML 已经从头开始训练模型,据说其性能可与 Meta 的 Llama-7B 模型(成本为 20 万美元)、StabilityAI 的 StableDiffusion(成本为 5 万美元)和谷歌的 BERT(成本仅为 20 美元)相媲美。

目前在这一领域有许多工作都是为了让大模型直接访问本地知识和互联网。最近对 "微调"(Fine Tuning)和 "低等级适应"(Low Rank Adaptations)的研究为快速更新模型权重提供了潜在的途径,从而提高了某些任务的性能。还需要进行更多的研究,以了解 i) 哪些类别的问题可以通过直接提示(或许可以利用本地知识进行增强)来解决,ii) 哪些问题需要减少可训练参数的数量以降低内存需求(使用低等级适应等有前途的技术),iii) 哪些问题需要进行全面的微调,以及 iv) 哪些问题如果不从根本上重新构建模型将永远无法解决。

与情报分析师的复杂推理过程保持一致

模型必须支持复杂的推理链和多模式推理。虽然大模型的设计目的是能够 "保持 "对某一推理过程的关注,但要在情报工作中发挥作用,它们就必须能够支持可能是横向和反事实的复杂推理。最先进的大模型不太可能做到这一点,因为反事实推理依赖于对现实世界中实体之间关系的建模。开发神经符号网络等混合架构,将神经网络的统计推理能力与符号处理的逻辑性和可解释性结合起来,似乎最有潜力。鼓励国家安全界进一步研究这类前景广阔的技术。

最后,众所周知,机器学习模型是可以被篡改的。我们所信任的机器学习模型除了可以解释和引用之外,还必须具有更强的抗篡改能力。这一点在国家安全方面尤为重要,因为根据所提供的见解做出的决策可能会对个人和更广泛的社会产生重大影响。

结论

在情报界,我们被赋予收集和分析数据的巨大权力,这可能会导致产生重大影响的行动。我们的工作大多是秘密进行的;如果我们天真地相信一个大型语言模型,可能会在不经意间将严谨的分析暴露在大量错误信息面前。为管理 "幻觉 "模型、不准确和不真实信息或有害内容的产生所带来的风险,需要采取必要的(而且很可能是繁琐的)保障措施,其成本需要与这项技术可能为情报工作带来的益处进行权衡。

目前的大模型作为基本的生产力助手,在提高某些重复性情报工作的效率方面显示出了大有可为的潜力。但是,最有前途的使用案例还在地平线上,未来的工作重点应该是开发能够理解所处理信息的上下文的模型,而不仅仅是预测下一个词可能是什么。

成为VIP会员查看完整内容
141

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《人工智能灾难性风险概述》2023最新55页报告
专知会员服务
61+阅读 · 2023年10月6日
中文版《2040年的陆军:2030年目标的延伸》2023最新报告
专知会员服务
92+阅读 · 2023年7月19日
《军事行动自动化》【译文】2022最新报告
专知会员服务
157+阅读 · 2022年11月12日
【2022新书】深度学习归一化技术,117页pdf
专知
17+阅读 · 2022年11月25日
《军事行动自动化》【译文】2022最新报告
专知
47+阅读 · 2022年11月13日
【新书册】贝叶斯神经网络,41页pdf
专知
26+阅读 · 2020年6月3日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2014年12月31日
Arxiv
133+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
115+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员