近年来,大规模文本到图像生成模型的成功实证验证了扩散模型在生成任务中的卓越性能。为了促进其在资源受限的边缘设备上的高效部署,模型量化已成为实现模型压缩与加速的关键技术之一。 本综述系统梳理了扩散模型量化领域的最新进展,全面分析了该快速发展的研究方向中的当前技术现状。 首先,我们概述了在扩散模型量化过程中所面临的主要挑战,包括基于U-Net架构以及扩散Transformer(Diffusion Transformers, DiT)模型的相关难点。随后,我们构建了一个全面的量化技术分类体系,并深入讨论了各类主流方法的原理机制。 接着,我们从定性与定量两个维度对具有代表性的扩散模型量化方案进行了细致分析。 在定量层面,我们基于多个广泛使用的数据集,对各种方法进行了严谨的基准评估,提供了对当前最前沿、最具影响力研究工作的系统对比与分析。 在定性层面,我们总结并归纳了量化误差的影响,结合图像可视化分析与生成轨迹的演化过程,对其影响机理进行了详细阐述。 最后,我们展望了扩散模型量化在实际应用中的未来研究方向,提出了若干具有潜力的研究路径与创新方案。 本综述相关论文列表、对应代码、预训练模型及对比结果均已公开,详见项目主页。
关键词:扩散模型、Transformer、模型加速、扩散模型量化
扩散模型(Diffusion Models)[1–4]近年来迅速发展,已成为主流的深度生成模型之一。通过对后验分布的精细建模和迭代去噪机制,扩散模型能够实现对样本细节的高精度重建,显著提升了生成质量与保真度。与变分自编码器(Variational Autoencoders, VAEs)[5]相比,扩散模型更擅长捕捉细粒度特征,并有效规避了传统重建方法在生成高保真样本时的结构性限制。 此外,扩散模型采用最大似然估计(Maximum Likelihood Estimation)为基础的训练策略,具备坚实的理论支撑,同时也较好地缓解了生成对抗网络(GAN)[6]在训练中常见的模式崩溃(mode collapse)和伪影生成等问题,从而在样本多样性与生成保真度之间实现了更优平衡。 近年来,跨学科的研究成果进一步凸显了扩散模型在诸多生成任务中的强大适应性,包括文本到图像生成 [7, 8]、图像超分辨率 [9, 10]、图像修复 [11, 12]、风格迁移 [13–15]、文本到视频生成 [16–18]、时间序列建模 [19, 20]、可解释性建模 [21]、分子生成 [22] 和医学图像重建 [23, 24] 等。 然而,扩散模型在推理过程中往往面临显著的计算与内存开销。例如,即使在高性能的 A6000 GPU 上,Stable Diffusion [25] 在 16GB 显存条件下执行一次去噪步骤仍需超过 1 秒 [26]。这种低效率主要源于两个关键瓶颈:一是冗长的去噪链条(通常需多达 1000 步 [2]),二是计算开销巨大的噪声估计网络(即得分估计网络 [4])。
为缓解第一个瓶颈,研究者提出了多种高效采样策略。其中一类方法着力于构建高性能采样器,通过数值求解反向时间的随机微分方程(SDE)[27] 或其对应的常微分方程(ODE)[28, 29],以优化步长和控制离散误差;另一类研究则致力于学习更优的扩散机制,如扩散方案学习 [30–32] 和噪声尺度学习 [33–35]。 为缓解第二个瓶颈,模型压缩技术如剪枝 [36, 37]、蒸馏 [38, 39] 和量化 [40, 41] 被引入扩散模型中。剪枝虽能减少模型复杂度,但常破坏权重结构,且往往需代价高昂的重新训练;蒸馏方法可通过学习反向 SDE 的积分过程显著减少采样步骤,但对数据与算力的依赖程度较高。例如,INSTAFLOW [32] 利用 Rectified Flow [42] 作为教师模型进行有监督蒸馏训练,但整体训练过程耗费高达 199 个 A100 GPU 日。相比之下,模型量化 [43] 在保持表达能力的同时显著提升推理效率,成为边缘部署中扩散模型加速的有力手段,因此受到广泛关注。 近期在扩散模型量化方面的研究取得了显著突破 [40, 41, 44–46],大量前沿工作聚焦于将原本应用于 CNN 架构 [47] 或大型语言模型(LLM)[48, 49] 的高阶量化范式适配至扩散模型。开创性工作 PTQ4DM [40] 首次引入基于高斯分布的时间步采样生成校准集,为该方向奠定了基础;Liu 等人 [50] 进一步提出了分布对齐增强机制,有效提升了校准样本的表达能力;So 等人 [45] 引入时间动态量化方法,支持时间步特定的激活量化;Wang 等人 [51] 构建了可微分的时间步粗粒度分组框架,而 Huang 等人 [52] 则提出时序特征保持量化以缓解采样紊乱问题;Tian 等人 [53] 则进一步推进了视频生成中的时间对齐技术。 在量化感知训练(QAT)方面,Q-DM [54]、QuEST [55] 和 MEFT-QDM [56] 通过实证研究系统优化了多个目标函数。随着 LoRA 技术的引入,4-bit 激活量化的边界被进一步突破,He 等人 [57] 提出 QaLoRA,Guo 等人 [58] 推出 IntLoRA,实现对大型文本到图像模型的微调。 在极端量化场景下,BLD [59]、BinaryDM [60] 和 BiDM [61] 借助伯努利分布进行潜空间重建,BitsFusion [62] 和 BDM [63] 则采用混合精度策略。但这些方法往往受到量化误差扰动影响,导致采样稳定性下降,因此催生了如 PTQD [44]、D²-DPM [46] 和 Tac-QDM [64] 等误差校正机制。 在扩散 Transformer(DiT)[65] 的量化方面,He 等人 [66] 与 Q-DiT [67] 提出了针对性分组量化机制,以缓解异常激活引发的性能退化;同时,PTQ4DiT [68]、DiT-AS [69]、ViDiT-Q [70] 和 HQ-DiT [71] 等方法通过通道平滑与均衡机制降低了量化敏感性。 尽管上述研究从多个角度解决了扩散模型量化中的主要问题,但不少方法在处理类似挑战时仍存在策略重叠的现象,反映出当前该领域尚缺乏一份从全局视角出发的系统综述。 为推动高效扩散模型的发展,本文围绕扩散模型量化进行系统性和专业化综述。我们首先介绍扩散模型与模型量化的基本概念,区别于以往聚焦静态单步模型的综述,本文从扩散过程的多步采样动态出发,对量化挑战进行深入剖析,并构建了细化的解决方案分类体系。我们进一步归纳各领域的关键技术,帮助研究者组合互补策略以实现最优性能。 此外,我们在三类典型任务上对主流开源方案进行了评估:类别条件生成、无条件生成、文本引导图像生成;并通过视觉分析揭示量化伪影(如色偏、过曝、模糊、结构变形)的成因,并以实证研究加以支持。
首份扩散模型量化领域的系统综述:据我们所知,本文为首篇全面回顾扩散模型量化研究进展的综述性论文,涵盖截至 2025 年 3 月的最新研究成果,填补理论与实践之间的空白。 * 对扩散模型量化挑战的深入剖析:首次系统归纳了扩散模型量化中的关键挑战,涵盖模型结构(如U-Net中的跳跃连接、Transformer中的注意力机制及前馈网络、文本到图像模型中的多模态对齐)及独立于架构之外的多步采样过程引发的问题。 * 完整的量化方法分类体系:构建了全面的分类框架,涵盖基于 U-Net 和 DiT 的所有主流后训练量化(PTQ)与量化感知训练(QAT)方法,并介绍了如校准采样策略、动态激活、误差修正、分组策略与通道均衡等核心机制。 * 定量基准测试与定性分析:在多个公开任务上对开源方案进行系统评估,结合视觉分析探讨量化误差带来的伪影与其规律,并通过实证实验予以验证。 * 未来研究展望:分析当前扩散模型框架下仍面临的挑战,提出潜在研究方向,如与高级训练策略的结合、向量量化跨模态优化等。
本文结构安排如下:第2节介绍扩散模型与模型量化的理论基础,并深入探讨扩散模型量化中的核心挑战;第3节在前述讨论基础上,对现有量化方法进行分类与剖析;第4节提供标准化基准并评估典型开源方案;第5节总结全文,并展望未来研究方向。