学界 | NTIRE2017夺冠论文：用于单一图像超分辨率的增强型深度残差网络

2017 年 7 月 17 日 机器之心

选自SNU

作者：Bee Lim等

机器之心编译

参与：Smith

图像超分辨率（SR）问题，尤其是单一图像超分辨率（SISR）问题，在近几十年中已经受到了广泛的研究关注。SISR 问题旨在从一个单一低分辨率图像中重构出一个高分辨率图像。通常情况下，低分辨率图像和原始的高分辨率图像可根据情境而产生变化。很多研究都假设低分辨率图像是高分辨率图像的降采样结果。最近，深度神经网络在 SR 问题中的峰值信噪比（PSNR）方面带来了很大的性能提升。然而，这种网络也在结构最优化原则（architecture optimality）中暴露了其局限性。

论文链接：http://cv.snu.ac.kr/publication/conf/2017/EDSR_fixed.pdf

摘要：近期关于超分辨率（super-resolution）的研究已经随着深度卷积神经网络（DCNN）的发展而进步了。残差学习的方法（residual learning ）尤其能展现出其性能表现的提升。在本篇论文中，我们研发了一种增强型深度超分辨率网络（enhanced deep super-resolution network —— EDSR），其性能表现超越了那些当前最新型的 SR 方法。我们的模型之所以有显著的性能提升是因为我们在优化时去除了传统残差网络中的不必要模块。另一个原因就是，在使训练过程保持稳定的情况下，我们扩展了模型的规模。我们也提出了一种新型的多尺度深度超分辨率系统（multi-scale deep super-resolution system —— MDSR）和训练方法，它可以在一个单一模型中，对升规模因子（upscaling factors）不同的超分辨率图像进行重构。这种方法在基准数据集中展现了超过当前一流方法的优越性能，并且通过赢得 NTIRE2017 超分辨率挑战赛证明了它的卓越性。

图 1：我们的单尺度 SR 方法（EDSR）与其它算法的 ×4 超分辨率结果的对比情况。

图 2 ：原始 ResNet、SRResNet、和我们的残差模块的对比。

我们对比了每个网络模型（原始 ResNet、SRResNet、和我们提出的网络）的基础模块。我们在我们的网络中去除了批归一化（batch normalization）层（Nah et al. 在他们的图像去模糊相关工作中提出的方法）。由于批归一化层使特征标准化，同时它们也去除了网络中的范围柔性（range flexibility），所以最好去除这些批归一化层。这一简单的修改可以大幅增加性能表现。

再者，GPU 的内存使用率也会显著减少（因为批归一化层会消耗与之前卷积层等量的内存）。

与 SRResNet 相比，我们没有批归一化层的基准模型，在训练过程当中大概减少了 40% 的内存使用率。因此，我们就可以创建一个更大型的模型，它在计算资源有限的情况下比传统 ResNet 有着更好的性能表现。

图 3：单尺度网络（single-scale SR network —— EDSR）结构。

我们用我们提出的图 2 中的残差模块构造了基准（单尺度 —— single-scale）模型。其结构类似于 SRResNet ，但是我们的模型在残差模块之外并没有设置 ReLU 激活层。而且，我们的基准模型也没有残差缩放层（residual scaling layers），因为我们仅仅为每一个卷积层使用了64维的特征映射。在我们最终的单尺度模型（single-scale model —— EDSR）中，我们通过设置 B = 32 ，F= 256，比例因数（scaling factor ）为 0.1 对基准模型进行了扩展。模型结构如图 3 所示。

当在升采样因子（upsampling factor）为 ×3 和 ×4 的时候，我们用预训练的 ×2 网络初始化了模型参数。这一预训练方法加速了训练进程，也提升了最终的性能表现，详见图 4 。对于升采样 ×4 的情况，如果我们使用了一个预训练的 scale×2 模型（蓝线），训练就会比随机初始化的训练（绿线）收敛的更快。

图 4：在 ×4 模型（EDSR）中使用预训练 ×2 网络的结果。红线表示绿线的最优性能。使用 10 张图片用于在训练过程中进行验证。

从图 4 中的观察结果我们得出结论，多尺度情况下的超分辨率是具有相互关联性的任务。我们利用 VDSR 的尺度间相关性创建了多尺度结构，从而进一步探索了这个想法。我们设计了带有一个单一主分支的基准（多尺度 —— multi-scale）模块，含有 B = 16 的残差模块，所以大部分参数都可以在不同尺度间进行共享，如图 5 所示。

在我们的多尺度结构中，我们引入了尺度特定（scale-specific）的处理模块，以在多尺度下控制超分辨率。首先，预处理模块被置于网络的前端，以减少不同尺度的输入图像的变化幅度，每一个预处理模块包括两个 5×5 内核（kernels）的残值区块（residual blocks ）。通过在预处理模块中采用较大的内核，我们可以使尺度特定的部分保持浅层（shallow）状态，在网络的早期阶段可以覆盖较大的接受域（receptive field）。

在模型的末端，尺度特定的升采样模块被并行放置，以进行多尺度重构。其升采样（upsampling）模块与单尺度模型中的情况相类似。