有哪些省内存的大语言模型训练/微调/推理方法？

会员服务 ·

有哪些省内存的大语言模型训练/微调/推理方法？

2023 年 4 月 9 日 PaperWeekly

©作者 | 李雨承

单位 | 英国萨里大学

研究方向 | Conceptual Reasoning

大模型（LLMs）现在是 NLP 领域的最主流方法之一了。

这个趋势带来的主要问题之一，就是大模型的训练/微调/推理需要的内存也越来越多。

举例来说，即使 RTX 3090 有着 24GB 的 RAM，是除了 A100 之外显存最大的显卡。但使用一块 RTX 3090 依然无法 fp32 精度训练最小号的 LLaMA-6B。

本文总结一些 Memory-Efficient 的 LLMs 的训练/微调/推理方法，包括：

● fp16

● int8

● LoRA

● Gradient checkpointing

● Torch FSDP

● CPU offloading

估算模型所需的RAM

首先，我们需要了解如何根据参数量估计模型大致所需的 RAM，这在实践中有很重要的参考意义。我们需要通过估算设置 batch_size，设置模型精度，选择微调方法和参数分布方法等。

接下来，我们用 LLaMA-6B 模型为例估算其大致需要的内存。

首先考虑精度对所需内存的影响：

● fp32 精度，一个参数需要 32 bits, 4 bytes.

● fp16 精度，一个参数需要 16 bits, 2 bytes.

● int8 精度，一个参数需要 8 bits, 1 byte.

其次，考虑模型需要的 RAM 大致分三个部分：

● 模型参数

● 梯度

● 优化器参数

模型参数：等于参数量*每个参数所需内存。

对于 fp32，LLaMA-6B 需要 6B*4 bytes = 24GB内存

对于 int8，LLaMA-6B 需要 6B*1 byte = 6GB

梯度：同上，等于参数量*每个梯度参数所需内存。

优化器参数：不同的优化器所储存的参数量不同。

对于常用的 AdamW 来说，需要储存两倍的模型参数（用来储存一阶和二阶momentum）。

fp32 的 LLaMA-6B，AdamW 需要 6B*8 bytes = 48 GB

int8 的 LLaMA-6B，AdamW 需要 6B*2 bytes = 12 GB

除此之外，CUDA kernel 也会占据一些 RAM，大概 1.3GB 左右，查看方式如下。

综上，int8 精度的 LLaMA-6B 模型部分大致需要 6GB+6GB+12GB+1.3GB = 25.3GB 左右。

再根据LLaMA的架构（hidden_size = 4096, intermediate_size =11008, num_hidden_layers = 32, context_length = 2048）计算中间变量内存。

每个 instance 需要：

所以一张 A100（80GB RAM）大概可以在 int8 精度；batch_size = 50 的设定下进行全参数训练。

查看消费级显卡的内存和算力：

2023 GPU Benchmark and Graphics Card Comparison Chart

https://www.gpucheck.com/gpu-benchmark-graphics-card-comparison-chart

Fp16-mixed precision

混合精度训练的大致思路是在 forward pass 和 gradient computation 的时候使用 fp16 来加速，但是在更新参数时使用 fp32。

用 torch 实现：

CUDA Automatic Mixed Precision examples

https://pytorch.org/docs/stable/notes/amp_examples.html

torch fp16 推理：直接使用 model.half() 将模型转换为fp16.

使用 Huggingface Transformers：在 TrainingArguments 里声明 fp16=True

https://huggingface.co/docs/transformers/perf_train_gpu_one#fp16-training

Int8-bitsandbytes

Int8 是个很极端的数据类型，它最多只能表示 - 128～127 的数字，并且完全没有精度。

为了在训练和 inference 中使用这个数据类型，bitsandbytes 使用了两个方法最大程度地降低了其带来的误差：

1. vector-wise quantization

2. mixed precision decompasition

Huggingface 在这篇文章中用动图解释了 quantization 的实现：

https://huggingface.co/blog/hf-bitsandbytes-integration

论文：

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

https://arxiv.org/abs/2208.07339

借助 Huggingface PEFT，使用 int8 训练 opt-6.5B 的完整流程：

https://github.com/huggingface/peft/blob/main/examples/int8_training/Finetune_opt_bnb_peft.ipynb

LoRA

Low-Rank Adaptation 是微调 LLMs 最常用的省内存方法之一。

LoRA 发现再微调 LLMs 时，更新矩阵（update matrix）往往特别 sparse，也就是说 update matrix 是低秩矩阵。LoRA 的作者根据这一特点将 update matrix reparametrize 为两个低秩矩阵的积积。

其中，，A 和 B 的秩为 r，且。

如此一来，A+B 的参数量将大大小于 .

LoRA 的论文：

https://arxiv.org/pdf/2106.09685.pdf

借助 Huggingface PEFT 框架，使用 LoRA 微调 mt0：

https://github.com/huggingface/peft/blob/main/examples/conditional_generation/peft_lora_seq2seq.ipynb

Gradient Checkpointing

在 torch 中使用 - 把 model 用一个 customize 的 function 包装一下即可，详见：

Explore Gradient-Checkpointing in PyTorch

https://qywu.github.io/2019/05/22/explore-gradient-checkpointing.html

在 Huggingface Transformers 中使用：

https://huggingface.co/docs/transformers/v4.27.2/en/perf_train_gpu_one#gradient-checkpointing

Torch FSDP+CPU offload

Fully Sharded Data Paralle（FSDP）和 DeepSpeed 类似，均通过 ZeRO 等分布优化算法，减少内存的占用量。其将模型参数，梯度和优化器状态分布至多个 GPU 上，而非像 DDP 一样，在每个 GPU 上保留完整副本。

CPU offload 则允许在一个 back propagation 中，将参数动态地从 GPU -> CPU, CPU -> GPU 进行转移，从而节省 GPU 内存。

Huggingface 这篇博文解释了 ZeRO 的大致实现方法：

https://huggingface.co/blog/zero-deepspeed-fairscale

借助 torch 实现 FSDP，只需要将 model 用 FSDPwarp 一下；同样，cpu_offload 也只需要一行代码：

https://pytorch.org/blog/introducing-pytorch-fully-sharded-data-parallel-api/

在这个可以查看 FSDP 支持的模型：

https://pytorch.org/docs/stable/fsdp.html

在 Huggingface Transformers 中使用 Torch FSDP：

https://huggingface.co/docs/transformers/v4.27.2/en/main_classes/trainer#transformers.Trainin

根据某些 issue，shard_grad_op（只分布保存 optimizer states 和 gradients）模式可能比 fully_shard 更稳定：

https://github.com/tatsu-lab/stanford_alpaca/issues/32

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

INT8

关注 0

大模型的涌现能力介绍

专知会员服务

174+阅读 · 2023年5月16日

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

专知会员服务

26+阅读 · 2022年4月5日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

100亿参数的语言模型跑不动？MIT华人博士提出SmoothQuant量化，内存需求直降一半，速度提升1.56倍！

新智元

0+阅读 · 2022年11月30日

AI部署：聊一聊深度学习中的模型权重

极市平台

7+阅读 · 2022年11月9日

现在都2202年了，用CPU做AI推理训练到底能不能行？

机器之心

0+阅读 · 2022年9月22日

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

keras系列︱深度学习五款常用的已训练模型

数据挖掘入门与实战

10+阅读 · 2018年3月27日

大规模动态图中不稳定子结构挖掘算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

大气污染与气象条件对哮喘人群影响的交互作用研究

国家自然科学基金

0+阅读 · 2013年12月31日

虚拟化数据中心内存资源预测与动态调配

国家自然科学基金

0+阅读 · 2012年12月31日

有限内存拟牛顿法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于语言模型的通用实体检索建模及框架实现研究

国家自然科学基金

7+阅读 · 2011年12月31日

Grammar Prompting for Domain-Specific Language Generation with Large Language Models

Arxiv

0+阅读 · 2023年5月31日

DeepMerge: Deep Learning-Based Region-Merging for Image Segmentation

Arxiv

0+阅读 · 2023年5月31日

Sensitivity analysis for publication bias on the time-dependent summary ROC analysis in meta-analysis of prognosis studies

Arxiv

1+阅读 · 2023年5月31日

Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking

Arxiv

0+阅读 · 2023年5月30日

LLM-QAT: Data-Free Quantization Aware Training for Large Language Models

Arxiv

0+阅读 · 2023年5月29日

VIP会员