低照度图像增强(LLIE)在监控、自动化导航与医学影像等安全关键应用中至关重要,因为可见性退化会削弱下游任务的性能。近年来,扩散模型因其通过迭代去噪建模复杂图像分布的能力,成为用于 LLIE 的一种有前景的生成式范式。本文综述对用于 LLIE 的扩散模型进行最新且审慎的分析,其特色在于:与基于生成对抗网络(GAN)和 Transformer 的最新方法进行深入的对比性能评估;对实际部署挑战的系统梳理;以及对基础模型等新兴范式角色的前瞻性讨论。
我们提出了一套多视角的分类法,涵盖六个类别:内在分解、谱域与潜空间、加速、引导、多模态与自主型;该分类将增强方法映射到物理先验、条件化方案与计算效率等维度之上。我们的分类法以模型机制与条件信号的混合视角为根基。我们评估了定性失效模式、基准不一致性,以及可解释性、泛化能力与推理效率之间的权衡。同时,我们讨论了现实世界部署中的约束(例如内存、能耗)与伦理考量。本文旨在通过突出趋势并提出开放研究问题(包括新型条件化、实时自适应与基础模型的潜力),为下一代基于扩散的 LLIE 研究提供指引。
低照度图像增强(Low-Light Image Enhancement, LLIE)是计算机视觉中的一个基础性问题,对于监控、自动驾驶、医学诊断及消费级摄影等领域都至关重要。随着各类应用对鲁棒 LLIE 的需求不断增长,尤其是在夜间等非受控环境下运行的自主系统中,提升该领域研究的紧迫性日益凸显。光照不足会严重降低图像质量,表现为对比度低、噪声依赖信号强度以及纹理信息被抑制,从而削弱下游任务(如目标检测 [1, 2]、识别 [3, 4] 与分割 [5])的可靠性。与去噪或去模糊任务不同,LLIE 需解决一个从根本上病态的逆问题——从严重欠曝且常常含糊的观测中重建语义上有意义的结构。传统的增强方法,如直方图均衡 [6, 7]、伽马校正 [8, 9] 以及基于 Retinex 理论的传统方法 [10, 11],严重依赖人工设定的先验或全局调整。这些方法在复杂光照条件下往往失效,容易出现过度增强或颜色失真 [12, 13, 14],且缺乏对真实场景的适应性,尤其在安全关键应用中,错误的增强可能导致错误的解释或决策。 扩散模型最初是为生成建模而提出的 [15],但近年来因其鲁棒性与灵活性,在包括 LLIE 在内的低级视觉任务中逐渐受到关注 [16]。扩散模型在 LLIE 中的流行,源于其在生成逼真细节与纹理方面的显著能力,从而弥补了以往方法在细节重建上的不足。其概率建模特性——通过模拟前向加噪过程并学习反向去噪轨迹(通常基于分数匹配或随机微分方程 SDE 求解)——非常契合 LLIE 的病态特征。在该框架下,增强被视为一种逆问题,通过建模底层数据分布,从严重退化的输入中恢复高质量图像。与基于生成对抗网络(GAN)的方法(如 PD-GAN [17]、LE-GAN [18]、MFGAN [19])相比,扩散模型在训练稳定性上更具优势,能缓解模式坍塌,并在极端光照条件下产生更可靠的结果。此外,它还能显式地以物理先验(如曝光度、熵)作为条件进行建模,从而在缺乏配对数据集的情况下实现无监督学习(详见第 4.4 节)。当前 LLIE 研究逐渐不再仅将目标视为恢复唯一的“真实”图像,而是生成与低照度输入在语义上相一致、视觉上合理且细节丰富的图像——而这正是扩散模型凭借其建模复杂分布与学习强图像先验的能力所擅长的范式。 从更宏观的角度来看,LLIE 的生成式建模格局可被描述为一个“生成三难困境”(generative trilemma)[20]:扩散模型、GAN 与 Transformer 各自在样本质量/逼真度、训练稳定性/模式坍塌以及计算效率/推理速度 [21] 等维度上存在独特权衡。扩散模型在这一权衡空间中占据重要位置,通常在输出质量与训练稳定性上表现优异,但早期面临推理速度较慢的问题——这一局限已成为当前研究社区重点攻克的方向(详见第 4.3 节)。 随着研究朝着更具可解释性、可控性与泛化能力的增强管线发展,扩散模型已成为新一代 LLIE 研究的核心。近年来的基于扩散的 LLIE 框架在方法学上呈现出多样化趋势,包括如何处理退化先验、操作空间(图像域、频率域或潜空间)以及条件机制类型。为系统化这一快速增长的研究体系,我们提出了一个六类分类法(如图 1 所示): (1) 内在分解型(Intrinsic Decomposition), (2) 谱域与潜空间型(Spectral & Latent), (3) 加速型(Accelerated), (4) 引导型(Guided), (5) 多模态型(Multimodal), (6) 自主型(Autonomous)。 该分类法刻画了不同增强策略间的差异,如基于物理的分解 [22]、域变换处理(例如潜空间 [23]、傅里叶 [24]、小波 [25])、用户或任务驱动的引导机制,以及自监督或零样本自适应等。虽然已有一些综述工作涉及更广泛的低级视觉任务中的扩散模型(如 He 等人 [16])或 LLIE 的部分方面,但本文聚焦于基于扩散模型的 LLIE 研究现状,提供最系统与最新的综合分析。 本文的主要贡献如下: 1. 提出并批判性分析了一套精炼的分类体系,反映最新的方法学趋势; 1. 从定量与定性两个层面进行了广泛比较,在多个数据集上将扩散模型与代表性 GAN 与 Transformer 架构进行基准评测; 1. 深入剖析了当前存在的核心挑战,分析挑战之间的相互依赖及其对部署的影响; 1. 面向未来方向的前瞻性讨论,包括基础模型的融合以及向设备端高效部署的演进。
尽管许多方法在特征上存在交叠,我们的分类依据其主要创新轴加以区分,揭示出更宏观的趋势:向实时高效、可控及对无配对数据的泛化发展。本文系统分析了各类别下的代表性研究,比较其假设、优缺点,并探讨了跨领域潜在协同(例如与去雾或文本识别任务的结合)。通过此综述,我们不仅综合了近期的进展,也旨在揭示核心科学问题并为未来基于扩散模型的 LLIE 研究提供路线图。 本文余下部分结构如下: * 第 2 节总结并讨论扩散模型相关文献中的重要观察与洞见,为后续综述奠定基础; * 第 3 节介绍 LLIE 的主要挑战与扩散模型的基本原理; * 第 4 节详细阐述我们提出的 LLIE 扩散模型分类体系; * 第 5 节讨论基准数据集与评估指标,并呈现系统的性能分析; * 第 6 节剖析当前存在的挑战与局限; * 第 7 节展望未来研究方向; * 第 8 节给出全文总结。