本备忘录旨在深入分析人工智能可能对生物武器的研发、生产及扩散所产生的影响。本研究的重点在于大型语言模型。在此背景下,人工智能可分为两大不同类别:大型语言模型和生物设计工具,两者均用于解决问题及开发新产品或新知识。过去十年间,已开发出若干生物设计工具,并应用于生物技术、生物化学和生物信息学领域,用以设计和模拟生物系统及过程,例如蛋白质、遗传回路或细胞过程。这些生物工具如今常被用于研究和工业领域,例如开发新药、转基因生物或生物燃料。生物设计工具结合了生物信息学、系统生物学和计算生物学。这些工具可包含蛋白质结构模型和分子动力学模拟。输入数据可以是生物化学或遗传数据,如DNA序列、蛋白质结构或特定细胞模型。生物设计工具基于生物学知识和模型,能够在分子或细胞层面预测或设计生物结构与功能。要解读和运用此类人工智能工具的输出结果,需要具备对生物学和化学原理的专业理解。其输出可以是生物功能的预测、新型生物分子的设计或生物过程的优化。当前使用的生物设计工具实例包括AlphaFold2、RoseTTAFold、ESMFold、OmegaFold、Fold2Seq、HyenaDNA、MAMBA、xTrimoPGLM-100B和BERT-RBP。有关生物设计工具开发及应用的更多信息将在后续的FOI备忘录中提供。
另一方面,大型语言模型是在大量文本数据上训练出来的人工智能模型,用于生成和理解人类语言。它们主要用于文本处理和对话,如文本生成、机器翻译、文本分析和自动对话系统。它们由多达数十亿参数的神经网络构成,并通过大量文本进行训练以学习语法、语义,有时甚至是基本逻辑模式。凭借其分析和生成文本的能力,大型语言模型可用于快速查找信息或提出解决方案,甚至包括生物技术、合成生物学和化学领域的复杂问题。这基于模型能够获取科学文本和研究报告,其中包含可能潜在地用于生物武器应用的知识。目前,最常用的大型语言模型内置了安全机制,不允许直接提出与武器开发相关的请求。然而,确实存在绕过这些限制的方法,即所谓的“越狱”。总体而言,大型语言模型可以简化相关信息的搜索过程,这可能包括可能被用于恶意目的的生物学操作流程和实验细节。通过能够快速生成与生物信息相关问题的具体答案,并结合通常以简单方式呈现的操作指南,启动此类项目的门槛可能会被降低。
在论及大型语言模型能力时,总应指出其当前的局限性。大型语言模型存在“幻觉”是一个众所周知的现象,即提供看似可信但不准确的信息。即使没有获取到相关信息,大型语言模型也总会提供答案。生成的文本基于其内部模型认为最可能的词语序列。大型语言模型也难以报告其信息来源(即使用户特别要求)。后者有时使得验证大型语言模型生成的信息变得困难。最后,应指出大型语言模型只能获取其训练时所用的信息。因此,一个已完成训练的大型语言模型不具备自其训练后新增的事件或知识信息。大量研究正在进行中,并且存在规避和最小化这些局限性的方法。这意味着模型正在不断变得更好。