SRGAN论文笔记

2018 年 4 月 12 日 统计学习与视觉计算组 张煜林

论文全称:《Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial》

论文地址:https://arxiv.org/abs/1609.04802

论文作者:Ledig C, Theis L, Huszar F, et al. 

摘要:

    尽管我们在单一图像超分辨率的速度和精度上利用更快更深的卷积神经网络(CNN)有了一定的突破了,但有一个中心问题尚未解决解决:当对放大很多倍的图像进行超分辨率时,我们如何能够更好的恢复图像的纹理细节? 以最优化思想为基础的超分辨率方法主要受到目标函数的影响,最近的一些相关项目都集中在最小化平均方差重建误差上,这样得到的结果有较高的峰值信噪比,但是往往图像会缺失高频细节并且视觉效果不理想,无法达到超分辨率的预期效果。 因此,在本文中作者提出了SRGAN,一个为image super-resolution(SR)的generative adversarial network (GAN)。这是第一个对放大四倍真实自然图像做超分辨率的框架。为了实现这个框架,作者提出了由adversarial losscontent loss组成的感知损失函数perceputal loss functionadversarial loss由判别器生成,使我们生成的图像更加接近真实自然图像。content loss由图像的视觉相似性生成,而不是利用像素空间的相似性。并且深度残差网络可以从深度下采样的图像中恢复出真实的图像纹理。作者采用平均主观意见分(MOS mean-opinion-score)测试作为图像效果的评判准则,最后的测试结果表明采用SRGAN获得的图像的MOS值比采用其他顶级的方法获得的图像的MOS值更加接近原始的高分辨图像。

    先展示下它的强大重建结果:


Introduction

    超分辨率(SR)指的是由低分辨(LR)图像生成高分辨(HR)图像的技术,SR受到计算机视觉领域的持续关注并且已经有了广泛的应用。

    目前有监督的超分辨率算法的优化目标函数通常是最小化恢复的高分辨率图像和实物图像的均方误差(MSE),在减小均方误差的同时又可以增大峰值信噪比(PSNR)。但是MSE和PSNR值的高低并不能很好的表示视觉效果的好坏。传统的方法一般处理的是较小的放大倍数,当图像的放大倍数在4以上时,很容易使得到的结果显得过于平滑,而缺少一些细节上的真实感。

如图2所示,最高的PSNR值并不一定对应SR效果更好的超分辨率结果。


从左到右:(双三次)立方体插值,优化MSE的深度残差网络,深度残差生成对抗网络优化人类感知更为敏感的损失,原始高分辨率图像.对应的PSNR和SSIM(结构相似性)值在括号中显示。

    因此,作者提出一个超分辨率生成对抗网络SRGAN以深度残差网络(ResNet)作为生成器的生成对抗网络,与以往不同的是,ResNet的优化目标不止MSE,还有VGG网络与判别器构成的perceptual loss(感知损失)。它可以促使方案很难区分出高分辨率参考图像。一个超分辨率实感图像样例如图1所示.

Contribution

    1.建立了以PSNR和结构相似性(structural similarty,SSIM)为评判标准的SRResNet来对放大4倍的图像做超分辨率。用16块深度ResNet来优化MSE.

    2.提出的SRGAN以perceptual loss为优化目标,我们用VGG网络特征图谱的损失函数取代了以MSE为基础的content loss。

    3.MOS测试在3个数据库上SRGAN都不错的效果。

Method

    GAN 有两博弈的对手:G(generator)和D(discriminator),容易想到一种可能的方案是:G的输入是低分辨率图像(LR),输出应该是高分辨率图像(HR)。

    在训练SRGAN网络的过程中需要提供HR图片,作者首先对HR图片进行下采样得到LR图片,然后将LR图片输入,训练生成器,使之生成对应的HR图片。训练生成器的过程与训练前馈CNN一样,都是对网络参数 进行优化,如下所示: 

作者定义了判别器