扩散模型近年来在计算机视觉领域崭露头角,已成为生成式人工智能中的一种强大方法,在多个应用中展现出卓越的生成性能。该类模型能够生成高质量的合成图像,已被广泛应用于各类任务中。然而,扩散模型在训练和生成过程中所需的高计算成本,仍然是一个关键挑战。
本研究聚焦于扩散生成模型的计算效率与推理时间,重点探讨其在自然图像与医学影像中的应用。我们系统归纳了扩散模型的最新研究进展,并将其划分为三类关键模型:去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)、潜空间扩散模型(Latent Diffusion Model, LDM)以及小波扩散模型(Wavelet Diffusion Model, WDM)。这些模型在医学影像领域中具有重要意义,尤其在快速、可靠且高质量地生成医学图像方面,对疾病诊断和异常分析至关重要。
我们首先分析了 DDPM、LDM 和 WDM 的通用框架,讨论了它们在自然图像与医学图像中如何填补现有模型在计算复杂度方面的差距。随后,我们进一步探讨这些模型当前存在的局限性,并展望其在医学影像领域中的发展机遇与未来研究方向。
1 引言 深度生成模型近年来在生成真实图像方面展现出卓越能力 [1]。这类模型包括生成对抗网络(Generative Adversarial Networks, GANs)[1]、变分自编码器(Variational Autoencoders, VAE)[2] 以及能量模型(Energy-Based Models, EBMs)[3]。其中,GANs 因其由生成器和判别器组成的双网络结构而受到广泛关注。生成器负责从随机噪声中生成和合成数据,而判别器则通过判断数据的真实性来区分真实数据与合成数据。这两个网络在训练过程中相互对抗,以生成逼真的合成样本,广泛应用于图像生成 [4]、图像分类 [5]、图像分割 [6] 和目标检测 [7] 等任务。
尽管 GANs 在生成高质量数据方面取得了显著成果,但当生成器与判别器未能在训练中达到稳定均衡时,模型性能会受到限制,从而影响合成图像的真实感。此外,GANs 还面临模型崩溃问题,即生成器难以输出多样化样本,导致生成结果单一。当生成器在训练中主导判别器而未获得足够反馈时,这种崩溃现象尤为严重 [8]。此外,由于生成器与判别器交替训练的依赖关系,GANs 难以实现高效的并行处理。
近年来,基于扩散过程的生成模型(Diffusion Models)[9–12] 成为生成合成数据的最新前沿技术(SOTA),其稳定的训练过程和生成高质量样本的能力优于 GANs。扩散模型已成功应用于诸多任务,包括图像合成 [13–15]、视频生成 [16]、自然语言处理(NLP)[17]、文本生成 [18]、图像去噪 [15, 19]、图像修复 [20]、图像超分辨率重建 [21, 22]、图像分割 [23, 24]、图像翻译 [25] 和图像分类 [26, 27]。扩散模型通过在多个时间步中逐步向图像添加高斯噪声,直至图像完全变为噪声图像,再从中学习还原原始图像,从而有效克服了 GANs 的诸多限制。
近年来,去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)作为扩散模型的改进版本被提出 [15],在建模复杂数据分布方面引入了去噪机制,显著提升了样本质量和训练稳定性。DDPMs 在多个生成任务中表现优异,广泛应用于图像生成 [28–30]、图像分割 [31–34]、图像修复 [35, 36]、图像分类 [26, 37, 38]、图像翻译 [39–41]、图像编辑 [42–44] 以及图像重建 [45–47]。其中,DDPMs 在文本到图像生成任务(如 Imagen [48]、Stable Diffusion [49] 和 DALL·E [50])中获得极大关注,因其能够生成高质量图像并具备广泛适用性。
尽管 DDPM 在生成数据质量方面表现卓越,但其主要缺点在于生成新样本所需的推理时间较长,即使在模型训练完成后,仍需高计算资源。这一点在处理高维数据(如病理全切片图像 Whole Slide Images, WSI)[51] 时尤为突出,这类图像具有极高分辨率和大体积文件,对显存和训练时间提出了极高要求。近年来,Meta AI [52] 和 Google Research [16] 等机构在扩散模型领域的重大进展,得益于其强大的计算能力。但在实际部署中,评估预训练模型常常耗时且资源开销巨大,模型在生成一个样本时需要执行大量步骤。这一特性限制了扩散模型在对响应速度有较高要求的场景中的广泛应用。因此,近年来的研究趋势是提升扩散模型的运行效率与可扩展性。
为缓解这一问题,Rombach 等人 [14] 提出了潜空间扩散模型(Latent Diffusion Model, LDM),该模型通过在预训练自动编码器的潜在空间中执行扩散过程,实现了采样效率的提升与计算资源的优化。LDM 利用低维潜在表示替代高维图像空间,从而免去了空间压缩的需要,并提高了在空间维度上的可扩展性。此外,LDM 在保持图像细节的同时简化了模型结构,提升了视觉保真度。LDM 已广泛应用于高分辨率 3D 脑部扫描图像的生成 [28],并在图像编辑、图像重建 [53]、图像分类 [54] 及图像翻译 [55] 等任务中表现出良好的性能。LDM 在保持 DDPM 高质量输出的前提下,显著提升了训练与采样效率,尽管如此,模型在推理速度方面仍有提升空间。
为进一步提升效率,近年来提出了小波扩散模型(Wavelet Diffusion Model, WDM)。WDM 通过小波变换在不同尺度上扩散信息,使得模型能够利用并行处理方式显著降低训练和生成过程中的计算开销。WDM 在扩展性方面亦展现出优异性能,能够高效处理大规模数据集而不显著降低生成质量。因此,WDM 在多个角度上成为扩散模型的重要补充 [56, 57]。将小波变换引入扩散过程能够提升图像分析效果,已被广泛应用于图像合成 [59, 60]、图像重建 [61, 62] 以及图像复原 [46] 等领域。 本文系统回顾了 DDPM、LDM 与 WDM 在计算机视觉与医学图像分析中的最新研究进展。如图1所示,我们重点分析这三种主流扩散生成模型的生成能力、训练效率和推理时间表现。图1(a) 展示了相关模型的年度文献发表数量趋势,图1(b) 则突出了当前研究中应用最广泛的模型类型。虽然已有若干扩散模型的综述文章,但目前尚无研究系统讨论这些模型在处理超高分辨率图像(如 WSI 或 3D MRI/CT)时的延迟与时间复杂度问题。本文旨在填补这一研究空白。 表1提供了本文与现有扩散模型综述之间的对比分析。我们从性能、效率和稳定性等维度评估了 DDPM、LDM 和 WDM 的表现,并讨论了它们在医学图像分析与自然图像处理中的潜在应用、优势与挑战。我们希望本研究能够为学术界提供有价值的见解,为扩散模型在医学影像中的应用拓展奠定基础。 Croitoru 等人 [9] 对扩散模型在计算机视觉中的应用进行了综述,比较了其生成质量与计算成本。Yang 等人 [10] 也详细探讨了扩散算法的最新进展,涵盖了文本生成、图像合成、视频生成及音乐创作等多领域的应用。Kazerouni 等人 [12] 更关注扩散模型在医学图像分析中的具体应用,探讨了不同模态、目标器官及使用的算法,但未涉及生成延迟和执行时间的问题,而这正是当前生成式人工智能面临的核心挑战之一。
系统阐述了 DDPM、LDM 和 WDM 的基本原理,分析其各自的优势与局限; * 明确了这三种扩散模型在自然图像与医学图像分析中的重要性; * 强调 LDM 与 WDM 在扩散模型“三难问题”(生成质量、推理效率、多样性)中所扮演的关键角色; * 通过表1对比分析现有综述文献,突出本文在生成效率与推理时延方面的独特关注; * 指出当前研究中的不足与开放问题,并提出未来研究的可能方向与机遇。
本文其余部分结构如下:第2节介绍扩散模型基础,重点聚焦 DDPM、LDM 与 WDM;第3节探讨其多用途应用,尤其是医学图像领域;第4节进行质量与计算成本的对比分析;第5节讨论未来前景与挑战;第6节为总结与展望。