深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。

VIP内容

深度学习方法是最近计算机视觉快速发展的基础。然而,这些方法往往需要昂贵的标记数据。特定于任务的模型,如分类器,并不是为了最大限度地学习一般的内部表示。此外,这些模型不能模拟数据生成过程来合成新样本,也不能修改输入样本。无监督深度生成模型有可能避免这些问题。

然而,两个主要的生成模型家族,生成对抗网络(GAN)和变分自编码器(VAE),都有各自的特点问题。基于GAN的模型在架构上相对复杂,有一个识别器网络,但通常没有编码器来接受输入。此外,GAN训练通常是不稳定的,并且容易忽略训练分配的部分(“模式崩溃”或“模式下降”)。另一方面,VAEs往往高估分布的某些区域的方差,导致生成的图像模糊。

这项工作介绍和评估模型和技术,以大大减少上述问题,并生成锐利的图像输出与一个简单的自动编码器架构。这是通过两个总体原则实现的。首先,一个合适的技术组合,从GAN模型被集成到最近引入的类似于VAE的对抗生成器-编码器。第二,网络的递归性质在几个方面得到了利用。自动调制器代表了一类新的自动编码器,其特征是使用隐含表示来调制解码器层的统计信息。该网络可以获取多个图像作为输入,从中生成融合的合成样本,输出的一些尺度由一个输入驱动,另一个尺度由另一个驱动,允许瞬时“风格混合”和其他新的应用。

这项工作介绍和评估模型和技术,以大大减少上述问题,并生成锐利的图像输出与一个简单的自动编码器架构。这是通过两个总体原则实现的。首先,一个合适的技术组合,从GAN模型被集成到最近引入的类似于VAE的对抗生成器-编码器。第二,网络的递归性质在几个方面得到了利用。自动调制器代表了一类新的自动编码器,其特征是使用隐含表示来调制解码器层的统计信息。该网络可以获取多个图像作为输入,从中生成融合的合成样本,输出的一些尺度由一个输入驱动,另一个尺度由另一个驱动,允许瞬时“风格混合”和其他新的应用。

这项工作介绍和评估模型和技术,以大大减少上述问题,并生成锐利的图像输出与一个简单的自动编码器架构。这是通过两个总体原则实现的。首先,一个合适的技术组合,从GAN模型被集成到最近引入的类似于VAE的对抗生成器-编码器。第二,网络的递归性质在几个方面得到了利用。自动调制器代表了一类新的自动编码器,其特征是使用隐含表示来调制解码器层的统计信息。该网络可以获取多个图像作为输入,从中生成融合的合成样本,输出的一些尺度由一个输入驱动,另一个尺度由另一个驱动,允许瞬时“风格混合”和其他新的应用。

最后,使用高斯过程框架,图像编码器-解码器设置从单个图像扩展到图像序列,包括视频和摄像机运行。为此,辅助图像元数据在生成模型的潜在空间中以非参数先验的形式被利用。这允许平滑和自由插值图像序列。在此过程中,高斯过程和计算机视觉方法之间提供了一个优雅的连接,这意味着将两者结合起来具有深远的意义。

https://aaltodoc.aalto.fi/handle/123456789/101686

成为VIP会员查看完整内容
0
15
Top