专题综述 | 大语言模型中的知识生命周期

Machine Intelligence Research

知识在人工智能发展中起着至关重要的作用。近年来，大规模语言模型(LLMs)取得了令人瞩目的进展，引发了人们对语言模型获取、维护、更新和使用知识方面的极大关注。尽管已经存在大量的相关研究，但学界对于知识如何在语言模型的学习、调整和应用过程中流动的完整生命周期，仍然缺乏整体性的观点，这可能会阻碍人们深入了解各个研究方向之间的联系，以及认识到现有研究中所存在的局限性。因此，本综述将语言模型视作一个大规模的知识系统，将知识在大规模语言模型中的生命周期划分为五个关键阶段，研究语言模型中的知识在构建、维护和使用过程中如何流动和循环。为此，**本文系统性地回顾了知识在语言模型中生命周期的各个阶段的代表性研究，总结了当前每个阶段的核心挑战和主要局限性，并讨论了未来潜在的发展方向。**相关成果已发表于《机器智能研究(英文)》2024年第2期中。****

图片来自Springer

全文下载：

The Life Cycle of Knowledge in Big Language Models: A Survey

Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun https://link.springer.com/article/10.1007/s11633-023-1416-x https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1416-x

全文导读

从根本上来说，人工智能是一门研究知识的科学--如何表示、获取和使用知识的科学。 ---尼尔森(1974年)

知识是通向高级智能的关键。一直以来，模型如何获取、存储、理解和应用知识一直都是机器智能领域的重要研究课题。近年来，大规模语言模型(LLMs)取得了飞速的发展。通过在大规模无标注语料库上进行自监督预训练，再通过指令微调和强化学习等手段与人类偏好对齐，大规模语言模型在不同领域、任务、数据集中表现出了远超以往方法的泛化和迁移能力，从而在人工智能领域取得了令人瞩目的成就。

大规模语言模型的成功引起了人们对其隐含知识的极大关注。许多研究都已经在关注大规模语言模型如何获取、维护和使用知识。基于此，研究者们探索了许多新的研究方向。例如，知识注入旨在将显式结构化知识注入LLM的参数中；知识探测用于评估存储在LLM参数中的知识类型和数量；知识编辑旨在修改LLM中不正确的或者过时的知识。

尽管有大量的相关研究，但目前的研究主要还是集中在知识在语言模型中的某一特定阶段，而对知识如何在整个模型学习、调整和应用阶段中循环缺乏一个统一视角。由于缺乏这种全面的研究，研究者们难以充分理解不同知识型任务之间的联系，发现LLM知识生命周期中不同阶段之间的相关性，以及探索现有研究的不足和局限性。例如，虽然许多研究致力于评估预训练语言模型中的知识，但很少有研究探讨为什么语言模型可以在没有任何知识监督的情况下从纯文本中学习海量的知识，以及语言模型表示和存储这些知识背后的机制。同时，许多研究尝试向LLM显示注入各类结构化知识，但少有研究尝试深入研究模型潜在的知识获取机制来帮助LLM更好地从纯文本中学习特定种类的知识。因此，该领域内的研究可能会过度关注某几个方向，而难以全面理解、维护和控制LLM中的知识，从而限制相关研究的进一步改进和应用。

本综述提出从知识工程的角度系统回顾大规模语言模型中与知识相关的研究。受认知科学和知识工程研究的启发，本文将大规模语言模型视为基于知识的系统，并研究知识在语言模型中的获取、维护和使用的完整生命周期。具体来说，本文将大规模语言模型中知识的生命周期分为以下五个关键阶段，如图 1 所示：

• 知识获取：旨在研究语言模型从文本或其他知识源中学习各类知识的方法和机制。 • 知识表示：旨在研究各种知识在语言模型参数中编码、存储和分布的规律和机制。 • 知识探测：旨在探究语言模型中包含知识的种类，以及对相应知识规模的量化分析。 • 知识编辑：旨在编辑或者删除语言模型中存储的特定知识。 • 知识应用：旨在将大规模语言模型中的知识应用于真实场景中。

图 1 语言模型知识生命周期的五个关键时期

对于每个阶段，本文系统性地梳理了现有的研究，总结了主要挑战和局限性，并讨论了未来的发展方向。基于一个统一的视角，本文能够帮助理解和利用语言模型知识生命周期不同阶段之间的密切联系，而不是将其视为独立的任务。例如，了解语言模型的知识表示机制对研究人员设计更好的知识获取目标和知识编辑策略具备启发性的价值。提出可靠的知识探测方法可以帮助研究者们找到更适合不同语言模型的应用场景，并深入了解其局限性，从而促进其进一步的改进。我们希望通过该综述全面总结当前研究的进展、挑战和局限，帮助研究人员从新的视角更好地理解整个领域，并从整体性角度阐明如何更好地规范、表示和应用语言模型中的知识的未来方向。

本文贡献总结如下：

本文将大规模语言模型视作一个新时代的知识系统，并将大规模语言模型中知识的生命周期划分为五个关键阶段。
如图2所示，针对每个阶段，本文系统性地回顾了现有研究，总结了每个研究方向的主要挑战和不足。
在此基础上，本文讨论了当前研究的局限性，并阐明了未来的潜在发展方向。

图 2 大模型知识生命周期的分类系统

· 本文作者 ·

全文下载：

The Life Cycle of Knowledge in Big Language Models: A Survey

Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun https://link.springer.com/article/10.1007/s11633-023-1416-x https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1416-x BibTex:

@Article {MIR-2022-10-329, author={ Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun }, journal={Machine Intelligence Research}, title={The Life Cycle of Knowledge in Big Language Models: A Survey}, year={2024}, volume={21}, issue={2}, pages={217-238}, doi={10.1007/s11633-023-1416-x}}

成为VIP会员查看完整内容