ICCV2019最佳论文|SinGAN：从单幅图像学习生成模型，可应用于多种图像处理操作

2019 年 10 月 30 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

本文对ICCV2019最佳论文《SinGAN：Learning a Generative Model from a Single Natural Image》进行解读。

这篇论文提出了一种可以从单幅自然图像学习的非条件生成模型--SinGAN，能够捕捉图像的内部块分布信息，生成具有相同视觉内容的高质量、多变的样本。SinGAN包含一个金字塔结构的全卷积GAN，每个GAN负责学习图像不同尺度的分布信息。因此可以生成具有任意尺寸和纵横比的新样本，这些样本具有明显的变化，同时又可以保持训练图像的整体结构和精细的纹理特征。与之前的单图像GAN方案对比，本文方法不局限于纹理图像，而且是非条件的（即从噪声生成样本）。大量实验证明SinGAN生成的样本具有较好的真实性，而且可以应用于多种图像处理任务中。

论文地址：https://arxiv.org/abs/1905.01164

源码地址：https://github.com/tamarott/SinGAN

补充材料地址：http://webee.technion.ac.il/people/tomermic/SinGAN/SinGAN.htm

作者：Tamar Rott Shaham，Tali Dekel，Tomer Michaeli（以色列理工学院，Google Research）

研究背景

生成对抗网络（GAN）在对视觉数据的高维分布建模方面取得了巨大飞跃。特别是用类别特定数据集（如人脸、卧室）进行训练时，非条件GAN在生成逼真的、高质量样本方面已取得显著成功。但建模具有多个类别、高度多样化的数据集（如ImageNet）的分布仍然是一项重大挑战，并且通常需要根据另一种输入信号来调节生成或为特定任务训练模型。

本文将GAN带入了一个新领域--从单幅自然图像中学习非条件生成模型。对单幅自然图像中的图像内部分布进行建模已被公认为是许多计算机视觉任务的有用先验，单幅自然图像通常具有足够的内部统计信息，可以使网络学习到一个强大的生成模型。作者提出了一种具有简单统一架构的模型SinGAN，能够处理包含复杂结构和纹理的普通自然图像，而不必依赖于具有同一类别图像的数据集。这是通过金字塔结构的全卷积GAN实现的，每个GAN负责捕捉不同尺度的图像分布。经过训练后，SinGAN可以以任意尺寸生成各种高质量的图像样本，这些样本在语义上类似于训练图像，但包含新的目标和结构，如图1所示。并且多种图像处理任务都可以应用SinGAN，如图像绘制、编辑、融合，超分辨率重建和动画化。

图 1 从单幅训练样本学习的图像生成模型。本文提出SinGAN--一种在单幅自然图像上训练的新型非条件生成模型。SinGAN使用多尺度对抗训练方案来跨多个尺度学习图像内部统计信息，可以将其用于生成新的逼真图像样本，该样本在生成新目标和结构的同时保留原始图像块分布。

方法

本文目标是学习一个非条件的生成模型，该模型可以捕捉单个训练图像x的内部统计信息。此任务在概念上与常规GAN设置相似，不同之处在于，此处训练样本是单幅图像不同尺度下的采样图像，而不是数据集中的整个图像样本。

模型选择处理更一般的自然图像，赋予模型生成纹理外的其他功能。为了捕捉图像中目标形状和排列位置这样的全局属性（如天空在顶部，地面在底部），以及精细的细节和纹理信息，SinGAN包含具有层级结构的patch-GANs（马尔可夫判别器），其中每个判别器负责捕捉x不同尺度的分布，如图2所示。虽然在GAN中已经探索使用了类似的多尺度结构，但本文还是第一个为从单幅图像进行内部学习而探索的网络结构。

1.多尺度结构

2.训练过程

实验结果

作者在图像场景跨度很大的数据集上对SinGAN进行了定性和定量的测试，定性生成的图像如图1和图4所示。SinGAN很好地保留目标的全局结构和较好的纹理信息，如图1中的山、图4中的热气球或金字塔。此外，模型很真实地合成了反射和阴影。

图 4 随机生成的图像样本

在训练时使用较少数目的尺度，则最粗尺度的有效感受野会更小，从而只能捕获精细纹理。随着尺度数量的增加，出现了更大的支撑结构，并且更好地保留全局目标的排列（位置关系）。测试时可以选择开始生成的尺度，SinGAN的多尺度结构可以控制样本间差异的总量。从最粗尺度开始生成会导致整体结构变化很大，在某些具有较大的显著目标的情况下，可能会生成不真实的样本。当从较细的尺度开始，可以保持整体结构完整，同时仅会改变更精细的图像特征。

为了量化生成图像的真实性以及它们捕捉训练图像内部统计信息的程度，作者使用两个度量：AMT真假用户调研和FID的单幅图像版本。AMT测试结果发现，SinGAN可以生成很真实的样本，人类判别的混淆率较高。利用单幅图像FID量化SinGAN捕捉x内部统计信息的能力的结果如表1所示。从N-1尺度开始生成的SFID评价值比从N尺度开始生成低，这与用户调研一致。作者还报告了SIFID与假图像混淆率之间的相关性，两者之间存在显著的负相关性，这意味着较小的SIFID通常表示较大混淆率。

表 1 两种模式的SIFD值

结论

本文介绍了一种可以从单幅自然图像中学习的新型非条件生成框架--SinGAN。证明了其不仅可以生成纹理，还具有为复杂自然图像生成各种逼真样本的能力。与外部训练的生成方法相比，内部学习在语义多样性方面具有固有的限制。例如，如果训练图像只包含一条狗，SinGAN不会生成不同犬种的样本。不过，作者通过实验证明，SinGAN可以为多种图像处理任务提供非常强大的工具。

-End-

*延伸阅读

CV细分方向交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群（已经添加小助手的好友直接私信），更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~