生成对抗网络(GANs)在过去的几年里得到了广泛的研究。可以说,它们最重要的影响是在计算机视觉领域,在这一领域中,图像生成、图像-图像转换、面部属性处理和类似领域的挑战取得了巨大进展。尽管迄今为止已经取得了重大的成功,但将GAN应用于现实世界的问题仍然面临着重大的挑战,我们在这里重点关注其中的三个。这是: (1)生成高质量的图像; (2) 图像生成的多样性; (3) 稳定的训练。我们将重点关注目前流行的GAN技术在应对这些挑战方面取得的进展程度,并对已发表文献中GAN相关研究的现状进行了详细回顾。我们进一步通过一个分类结构,我们已经采用了基于GAN体系架构和损失函数的变化。虽然到目前为止已经提交了几篇关于GANs的综述,但没有一篇是基于它们在解决与计算机视觉相关的实际挑战方面的进展来考虑这一领域的现状。因此,为了应对这些挑战,我们回顾并批判性地讨论了最流行的架构变体和损失变体GANs。我们的目标是在重要的计算机视觉应用需求的相关进展方面,对GAN的研究现状进行概述和批判性分析。在此过程中,我们还将讨论GANs在计算机视觉方面最引人注目的应用,并对未来的研究方向提出一些建议。本研究中所研究的GAN变体相关代码在
https://github.com/sheqi/GAN_Review上进行了总结。
地址: https://www.zhuanzhi.ai/paper/13d539e47a5fb31c850a19db08c63923
生成对抗网络(GANs)在深度学习社区[1]-[6]吸引了越来越多的兴趣。GANs已应用于计算机视觉[7]-[14]、自然语言处理[15]-[18]、时间序列合成[19]-[23]、语义分割[24]-[28]等多个领域。GANs属于机器学习中的生成模型家族。与其他生成模型(如变分自编码器)相比,GANs提供了一些优势,如能够处理清晰的估计密度函数,有效地生成所需样本,消除确定性偏差,并与内部神经结构[29]具有良好的兼容性。这些特性使GANs获得了巨大的成功,特别是在计算机视觉领域,如可信图像生成[30]-[34],图像到图像转换[2],[35]-[41],图像超分辨率[26],[42]-[45]和图像补全[46]-[50]。
然而,GANs并非没有问题。最重要的两点是,它们很难训练,也很难评估。由于训练难度大,在训练过程中判别器和生成器很难达到纳什均衡,生成器不能很好地学习数据集的完整分布是常见的问题。这就是众所周知的模式崩溃问题。在[51]-[54]这一领域进行了大量的研究工作。在评估方面,首要问题是如何最好地衡量目标pr的真实分布与生成的分布pg之间的差异。不幸的是,不可能准确地估算pr。因此,对pr和pg之间的对应关系进行良好的估计是很有挑战性的。以往的研究提出了各种对GANs[55] -的评价指标[63]。第一个方面直接关系到GANs的性能,如图像质量、图像多样性和稳定训练。在这项工作中,我们将研究计算机视觉领域中处理这方面的现有GAN变体,而对第二方面感兴趣的读者可以参考[55][63]。
目前许多GAN研究可以从以下两个目标来考虑:(1)改进训练,(2)将GAN应用于现实应用。前者寻求提高GANs性能,因此是后者(即应用)的基础。考虑到许多已发表的关于GAN训练改进的结果,我们在本文中对这方面最重要的GAN变体进行了简要的回顾。GAN训练过程的改进提供了好处表现如下: (1)改进生成的图像的多样性(也称为模式多样性) ,(2)增加生成的图像质量,和 (3) 包含更多 :(1) 介绍相关GAN综述工作和说明的区别这些评论和这项工作; (2)简要介绍GANs;(3)回顾文献中关于“GAN”的架构变体;(4)我们回顾文献中损失变体的GAN;(5)介绍了GAN在计算机视觉领域的一些应用; (6)引入了GAN的评价指标,并利用部分指标(Inception Score和Frechet Inception Distance, FID)对本文讨论的GAN变量进行了比较;(7)我们总结了本研究中的GANs变体,说明了它们的差异和关系,并讨论了关于GANs未来研究的几种途径。(8)我们总结了这篇综述,并展望了GANs领域可能的未来研究工作。
文献中提出了许多GAN变体来提高性能。这些可以分为两种类型:(1)架构变体。第一个提出的GAN使用完全连接的神经网络[1],因此特定类型的架构可能有利于特定的应用,例如,用于图像的卷积神经网络(CNNs)和用于时间序列数据的循环神经网络(RNNs);和(2)Loss-variants。这里探讨了损失函数(1)的不同变化,以使G的学习更加稳定。
图2说明了我们对2014年至2020年文献中具有代表性GANs提出的分类法。我们将目前的GAN分为两种主要变体,即架构变体和损失变体。在体系架构变体中,我们分别总结了网络体系结构、潜在空间和应用三大类。网络架构范畴是指对GAN架构的整体改进或修改,例如PROGAN中部署的渐进机制。潜在空间类别表示基于潜在空间的不同表示方式对架构进行修改,例如CGAN涉及到编码到生成器和识别器的标签信息。最后一类,应用,指的是根据不同的应用所做的修改,例如,CycleGAN有特定的架构来处理图像风格的转换。根据损失的变化,我们将其分为两类:损失类型和正则化。损失类型是指GANs需要优化的不同损失函数,正则化是指对损失函数设计的额外惩罚或对网络进行任何类型的归一化操作。具体来说,我们将损失函数分为基于积分概率度量和非积分概率度量。在基于IPM的GAN中,鉴别器被限制为一类特定的函数[64],例如,WGAN中的鉴别器被限制为1-Lipschitz。基于非IPM的GAN中的鉴别器没有这样的约束。
随着深度学习的快速发展, 生成式模型领域也取得了显著进展. 生成对抗网络(Generative adversarial network, GAN)是一种无监督的学习方法, 它是根据博弈论中的二人零和博弈理论提出的. GAN具有一个生成器网络和一个判别器网络, 并通过对抗学习进行训练. 近年来, GAN成为一个炙手可热的研究方向. GAN不仅在图像领域取得了不错的成绩, 还在自然语言处理(Natural language processing, NLP)以及其他领域崭露头角. 本文对GAN的基本原理、训练过程和传统GAN存在的问题进行了阐述, 进一步详细介绍了通过损失函数的修改、网络结构的变化以及两者结合的手段提出的GAN变种模型的原理结构, 其中包括: 条件生成对抗网络(Conditional GAN, CGAN)、基于Wasserstein 距离的生成对抗网络(Wasserstein-GAN, WGAN)及其基于梯度策略的WGAN (WGAN-gradient penalty, WGAN-GP)、基于互信息理论的生成对抗网络(Informational-GAN, InfoGAN)、序列生成对抗网络(Sequence GAN, SeqGAN)、Pix2Pix、循环一致生成对抗网络(Cycle-consistent GAN, Cycle GAN)及其增强Cycle-GAN (Augmented CycleGAN). 概述了在计算机视觉、语音与NLP领域中基于GAN和相应GAN变种模型的基本原理结构, 其中包括: 基于CGAN的脸部老化应用(Face aging CGAN, Age-cGAN)、双路径生成对抗网络(Two-pathway GAN, TP-GAN)、表示解析学习生成对抗网络(Disentangled representation learning GAN, DR-GAN)、对偶学习生成对抗网络(DualGAN)、GeneGAN、语音增强生成对抗网络(Speech enhancement GAN, SEGAN)等. 介绍了GAN在医学、数据增强等领域的应用情况, 其中包括: 数据增强生成对抗网络(Data augmentation GAN, DAGAN)、医学生成对抗网络(Medical GAN, MedGAN)、无监督像素级域自适应方法(Unsupervised pixel-level domain adaptation method, PixelDA). 最后对GAN未来发展趋势及方向进行了展望.
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180831
在计算机视觉领域,对抗网络(GANs)在生成逼真图像方面取得了巨大的成功。最近,基于GAN的技术在基于时空的应用如轨迹预测、事件生成和时间序列数据估算中显示出了良好的前景。虽然在计算机视觉中对GANs提出了一些评论,但没有人考虑解决与时空数据相关的实际应用和挑战。在这篇文章中,我们对GANs在时空数据方面的最新发展进行了全面的回顾。我们总结了在时空数据中流行的GAN架构,以及用GANs评估时空应用程序性能的常见做法。最后,提出了未来的研究方向,希望能对相关研究者有所帮助。
https://arxiv.org/abs/2008.08903
概述:
时空属性在交通运输(shao2017travel)、社会科学(kupilik2018spatio)、犯罪学(rumi2019crime)等各个领域都很常见,其中,传感器和大数据的激增迅速改变了时空属性。大量的时空(ST)数据需要适当的处理技术来建立有效的应用。通常,处理表格数据或图形数据的传统方法在应用于时空数据集时表现不佳。原因主要有三层(wang2019deep): (1) ST数据通常是连续空间,而表或图数据往往是离散的; (2) ST数据通常同时具有空间和时间属性,其中数据相关性较复杂,传统技术难以捕捉; (3) ST数据具有高度的自相关性,通常不像传统数据那样独立生成数据样本。
随着深度学习的普及,许多神经网络(如卷积神经网络(CNN) (krizhevsky2012imagenet),递归神经网络(RNN) (mikolov2010recurrent), Autoencoder (AE) (hinton2006 reduce),图卷积网络 (GCN) (kipf2016gcn))被提出并在ST数据建模方面取得了显著的成功。ST数据的深度学习之所以被广泛采用,是因为它在层次特征工程能力方面显示出了潜力。在本次调研中,我们关注的是深度学习领域最有趣的突破之一——生成对抗网络(GANs) (goodfellow2014generate)及其在ST数据方面的潜在应用。
GAN是一种对抗学习生成真实数据的生成模型。它由两个组件(goodfellow2014)组成:generator G和discriminator D。G捕获数据分布并从潜在变量z生成真实数据,D估计来自真实数据空间的数据概率。GAN采用了零和非合作博弈的概念,其中G和D被训练为相互竞争,直到达到纳什均衡。GAN在各领域获得了相当大的关注,包括图像(例如,图像翻译(isola2017image)超分辨率(ledig2017photo),联合图像生成(liu2016coupled),对象检测(ehsani2018segan),改变面部属性(donahue2017semantically))、视频(例如,视频一代(vondrick2016generating)),自然语言处理(例如,文本生成(lin2017adversarial),文本图像(zhang2017stackgan))。
然而,直接使用图像或视频生成并不适用于ST数据的建模,如交通流、区域降雨和行人轨迹。一方面,图像生成通常考虑输入和输出图像之间的外观,不能充分处理空间变化。另一方面,视频生成考虑了图像间的空间动态,但是,当对下一幅图像的预测高度依赖于前一幅图像时,时间变化没有得到充分考虑(saxena2019d)。因此,将GANs成功应用于ST数据需要探索新的方法。
最近,GANs开始应用于ST数据。GANs在ST数据上的应用主要包括生成去识别的时空事件(saxena2019d);jin2019crime),时间序列归责(luo2018multivariate;,轨迹预测(gupta2018;kosaraju2019), 图表示 (wang2018;bojchevski2018)等。尽管GANs在计算机视觉领域取得了成功,但将GANs应用于ST数据预测具有挑战性(saxena2019d)。例如,利用额外的信息,如景点(PoI),天气信息在以前的研究中仍然是未触及的。此外,与研究者可以依靠对生成的实例进行可视化检查的图像不同,GANs对ST数据的评估仍然是一个未解决的问题。在ST数据上采用传统的GAN评价指标(saxena2019d;esteban2017real)。
一些研究回顾了最近关于ST数据或GAN在不同领域的应用问题的文献。与从传统关系数据挖掘模式相比,建模ST数据特别具有挑战性,因为除了实际测量之外,它还具有空间和时间属性。Atluri等人(atluri2018spatio)回顾了ST数据建模的流行问题和方法。提供了不同类型ST数据的分类、定义和描述数据实例的方法,以确定实际应用程序中任何类型ST数据的相关问题。他们还列出了通常研究的ST问题,并回顾了处理不同ST类型的独特属性的问题。Want等人(wang2019deep)回顾了将深度学习应用于ST数据挖掘任务的最新进展,并提出了一个利用深度学习模型解决ST数据建模问题的流程。Hong等人(hong2019生成)从不同的角度解释了GANs,并列举了常用的用于多任务的GAN变体。在(pan2019recent)中讨论了GANs的最新进展,Wang et al. (wang2019生)提出了一种用于计算机视觉领域的GANs分类。特别是,Yi等人(yi2019生)回顾了GANs在医学成像中的最新进展。
然而,上述工作回顾了ST数据建模问题或GANs在计算机视觉领域的最新进展。尽管许多研究者(saxena2019d;esteban2017real;gupta2018social;luo20192;已经用GANs对ST数据进行建模,在这个领域还没有相关的调查来解决在ST数据应用中使用GANs的潜力。本文第一次全面概述了ST数据中的GANs,描述了GANs有希望的应用,并确定了在不同ST相关任务中成功应用尚需解决的一些挑战。
近年来,生成式对抗网络(generative adversarial nets, GAN)迅速发展,已经成为当前机器学习领域的主要研究方向之一。GAN来源于零和博弈的思想,其生成器和鉴别器对抗学习,获取给定样本的数据分布,生成新的样本数据。对GAN模型在图片生成、异常样本检测和定位、文字生成图片以及图片超分辨率等多方面进行了大量的调查研究,并在这些GAN的应用所取得的实质性进展进行了系统的阐述。对GAN的提出背景与研究意义、理论模型与改进结构,以及其主要应用领域进行了总结。通过对GAN在各方面的应用分析,对GAN的不足以及未来发展方向进行综述。
【导读】慕尼黑大学开设的《高级深度学习》技术课程,重点介绍计算机视觉的前沿深度学习技术。最新一期介绍了《生成式对抗网络》进展,讲述了GAN的知识体系,值得关注。
尽管生成式对抗网络(GAN)的历史并不长,但它已被广泛地研究和用于各种任务,包括其最初的目的,即合成样品的生成。然而,将GAN用于具有不同神经网络结构的不同数据类型,由于其在训练方面的局限性,使得模型很容易出现混乱。这种臭名昭著的GAN训练是众所周知的,并已在许多研究中提出。因此,为了使GAN的训练更加稳定,近年来提出了许多正则化方法。本文综述了近年来引入的正则化方法,其中大部分是近三年来发表的。具体地说,我们关注的是那些可以被普遍使用的方法,而不管神经网络体系结构如何。根据其运算原理将其分为若干组,并分析了各方法之间的差异。此外,为了提供使用这些方法的实际知识,我们调研了在最先进的GANs中经常使用的流行方法。此外,我们还讨论了现有方法的局限性,并提出了未来的研究方向。
生成对抗网络(GANs)是近年来受到广泛关注的一类新型的深度生成模型。GANs通过图像、音频和数据隐式地学习复杂的高维分布。然而,在GANs的训练中存在着主要的挑战。由于网络结构设计不当,使用目标函数和选择优化算法,导致模式崩溃,不收敛和不稳定。最近,为了解决这些挑战,一些更好地设计和优化GANs的解决方案已经被研究,基于重新设计的网络结构、新的目标函数和替代优化算法的技术。据我们所知,目前还没有一项综述特别侧重于这些解决办法的广泛和系统的发展。在这项研究中,我们进行了一个全面的综述,在GANs的设计和优化解决方案提出,以处理GANs的挑战。我们首先确定每个设计和优化技术中的关键研究问题,然后根据关键研究问题提出新的分类结构解决方案。根据分类,我们将详细讨论每个解决方案中提出的不同GANs变体及其关系。最后,在已有研究成果的基础上,提出了这一快速发展领域的研究方向。
https://arxiv.org/abs/2005.00065
概述
深度生成模型(DGMs),如受限玻尔兹曼机(RBMs)、深度信念网络(DBNs)、深度玻尔兹曼机(DBMs)、去噪自编码器(DAE)和生成随机网络(GSN),最近因捕获音频、图像或视频等丰富的底层分布和合成新样本而引起了广泛关注。这些深度生成模型采用基于马尔科夫链蒙特卡罗(MCMC)的[1][2]算法进行建模。基于MCMC的方法计算训练过程中梯度消失的对数似然梯度。这是由马尔科夫链产生的样本生成慢的主要原因,因为它不能足够快地在模式间混合。另一个生成模型,变分自动编码器(VAE),使用带有统计推理的深度学习来表示潜在空间[3]中的一个数据点,并在难以处理的概率计算的近似过程中体验复杂性。此外,这些生成模型是通过最大化训练数据可能性来训练的,其中基于概率的方法在许多数据集(如图像、视频)中经历了维数的诅咒。此外,在高维空间中,从马尔可夫链进行的采样是模糊的,计算速度慢且不准确。
为了解决上述问题,Goodfellow等人提出了生成对抗网(GANs),这是生成模型的另一种训练方法。GANs是一种新颖的深度生成模型,它利用反向传播来进行训练,以规避与MCMC训练相关的问题。GANs训练是生成模型和判别模型之间的极小极大零和博弈。GANs最近在生成逼真图像方面得到了广泛的关注,因为它避免了与最大似然学习[5]相关的困难。图1显示了GANs能力从2014年到2018年的一个进展示例。
GANs是一种结构化的概率模型,它由两个对立的模型组成:生成模型(Generator (G))用于捕获数据分布; 判别模型(Discriminator (D))用于估计生成数据的概率,以确定生成的数据是来自真实的数据分布,还是来自G的分布。D和G使用基于梯度的优化技术(同时梯度下降)玩一个两人极小极大对策,直到纳什均衡。G可以从真实分布中生成采样后的图像,而D无法区分这两组图像。为了更新G和D,由D通过计算两个分布之间的差异而产生的损失来接收梯度信号。我们可以说,GANs设计和优化的三个主要组成部分如下:(i) 网络结构,(ii) 目标(损失)函数,(iii)优化算法。
对多模态数据建模的任务,一个特定的输入可以与几个不同的正确和可接受的答案相关联。图2显示了具有多个自然图像流形(红色)的插图,结果由使用均方误差(MSE)的基本机器学习模型实现,该模型在像素空间(即,导致图像模糊)和GANs所获得的结果,从而驱动重构向自然图像流形方向发展。由于GANs的这一优势,它在许多领域得到了广泛的关注和应用。
GANs在一些实际任务中表现良好,例如图像生成[8][9]、视频生成[11]、域自适应[12]和图像超分辨率[10]等。传统的GANs虽然在很多方面都取得了成功,但是由于D和G训练的不平衡,使得GANs在训练中非常不稳定。D利用迅速饱和的逻辑损失。另外,如果D可以很容易的区分出真假图像,那么D的梯度就会消失,当D不能提供梯度时,G就会停止更新。近年来,对于模式崩溃问题的处理有了许多改进,因为G产生的样本基于少数模式,而不是整个数据空间。另一方面,引入了几个目标(损失)函数来最小化与传统GANs公式的差异。最后,提出了几种稳定训练的方法。
近年来,GANs在自然图像的制作方面取得了突出的成绩。然而,在GANs的训练中存在着主要的挑战。由于网络结构设计不当,使用目标函数和选择优化算法,导致模式崩溃,不收敛和不稳定。最近,为了解决这些挑战,一些更好地设计和优化GANs的解决方案已经被研究,基于重新设计的网络结构、新的目标函数和替代优化算法的技术。为了研究以连续一致的方式处理GANs挑战的GANs设计和优化解决方案,本综述提出了不同GANs解决方案的新分类。我们定义了分类法和子类寻址来构造当前最有前途的GANs研究领域的工作。通过将提出的GANs设计和优化方案分类,我们对其进行了系统的分析和讨论。我们还概述了可供研究人员进一步研究的主要未决问题。
本文贡献:
GAN新分类法。在本研究中,我们确定了每个设计和优化技术中的关键研究问题,并提出了一种新的分类法,根据关键研究问题来构造解决方案。我们提出的分类将有助于研究人员增强对当前处理GANs挑战的发展和未来研究方向的理解。
GAN全面的调研。根据分类法,我们提供了对各种解决方案的全面审查,以解决GANs面临的主要挑战。对于每一种类型的解决方案,我们都提供了GANs变体及其关系的详细描述和系统分析。但是,由于广泛的GANs应用,不同的GANs变体以不同的方式被制定、训练和评估,并且这些GANs之间的直接比较是复杂的。为此,我们进行了必要的比较,总结了相应的方法。他们提出了解决GANs挑战的新方案。这个调查可以作为了解、使用和开发各种实际应用程序的不同GANs方法的指南。
A Survey on GANs for Anomaly Detection
异常检测是当前研究领域面临的一个重要问题。检测和正确分类看不见的异常样本是一个具有挑战性的问题,多年来已经有很多方式在解决。
生成式对抗网络(GANs)和对抗训练过程最近已被用于面对这一任务,并产生了显著的结果。在本文中,我们调研了主要GAN-based异常检测方法,突出优点和缺点。我们的贡献是主要的实证验证GAN异常检测模型,在不同的数据集实验结果的增加和公众发布一个完整的开源工具箱使用GAN进行异常检测。