大语言模型算法演进综述

基于Transformer架构的大语言模型展现出强大的能力，是人类迈向通用人工智能（AGI）的一个重大进步。大语言模型架构和算法的演进分为提高推理效率、提高模型能力两条技术路线。介绍了两条技术路线主流的技术方案和思路。提高推理效率的方法有分布式推理、计算优化、访存优化、量化等；提高模型能力主要是引入新的架构，如混合专家（MoE）模型、状态空间模型（SSM）等。 OpenAI 于 2022 年、2023 年分别发布 ChatGPT[1] 和 GPT4[2] ，其强大的会话能力、多模态能力震惊业界，是人类迈向通用人工智能（AGI）的一个重大进步。ChatGPT和 GPT-4能力强大的原因有两个：一是Transformer[3] 架构的自注意力机制，可获取任意距离间单词的相关信息；二是大模型、大数据、大算力，规模超过了一定阈值，则会产生涌现能力[4] 。目前各大公司都发布了自己的大语言模型（LLM）。本文中，我们主要介绍大语言模型在两条技术路线上的架构和算法的演进。 1.1 语言模型的发展历程语言模型的发展经历了统计语言模型、神经语言模型、预训练语言模型和大语言模型4个阶段[5] 。其结构从基于统计概率发展到基于神经网络，模型复杂度不断增加，能力也出现了质的提升。 1）统计语言模型最初的语言模型是基于统计概率的，即根据语料统计出在某个上下文出现某个词的概率，根据概率选择最合适的词。 2）神经语言模型文献[6]首次将神经网络引入语言模型。常见的模型结构有循环神经网络（RNN）[7] 、长短期记忆网络（LSTM）[8] 等。RNN用隐藏层保存逐个输入的词的信息，但由于梯度消失和梯度爆炸，只能保留短期信息。LSTM使用门控机制，可以选择性地保留长期信息。 3）预训练语言模型 ELMo[9] 用预训练的双向LSTM网络根据上下文动态生成词向量，解决了一词多义问题。双向LSTM网络可以在下游任务上微调，得到更好的效果。基于Transformer的双向编码器表征法（BERT）[10] 也采用了预训练+下游任务微调的范式。 4）大语言模型预训练语言模型的性能随着规模的增大而提高，成幂律关系[11-12] 。OpenAI设计了大型语言模型GPT-3[13] 。该模型表现出强大的能力，性能和规模超越了幂律关系，出现了涌现1.2 大语言模型算法演进路线大语言模型的发展主要有两条技术路线：一是提高推理效率，降低推理成本；二是提高模型能力，迈向AGI。大语言模型能力强大，有广阔的应用前景，各厂商都在积极部署，提供服务。但是，由于模型规模巨大，算法对硬件不够友好，需要消耗大量的算力、存储、能源。因此，如何降低推理成本、推理延时，是一个亟待解决的问题。大语言模型主要的技术路线有分布式推理、减小模型计算量、减小模型访存量、提升硬件亲和性等。大语言模型是迈向AGI的重大进步，而Transformer是其中的核心架构，发挥了重大作用。但Transformer也有一定的不足，如计算量大，通过提升规模来提升性能更加困难；上下文窗口长度有限，难以支持超长序列。研究人员通过引入新的结构，解决这些问题，取得了较好的效果。

成为VIP会员查看完整内容

相关内容

大语言模型

关注 54

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

84+阅读 · 2024年5月3日

《大型语言模型持续学习》综述

专知会员服务

88+阅读 · 2024年4月26日

大型语言模型在表格推理中的应用综述

专知会员服务

45+阅读 · 2024年2月14日

基于深度学习的实时语义分割综述

专知会员服务

32+阅读 · 2023年11月27日