【论文笔记】ICLR 2018 Wasserstein自编码器

动机




表示学习领域最初是由监督方法驱动的,大规模标记数据集为这种方法带来了令人印象深刻的结果。相比之下,无监督生成模型,致力于使用概率的方法对低维数据建模。近年来,这两种方法已经趋于一致,在交叉处形成的新领域。变分自动编码器(Variational Auto-Encoder,VAEs)是其中一种成熟的方法,能处理大规模数据,并且在理论上优雅,但缺点是生成的图像模糊。生成对抗网络(Generative Adversarial Network,GAN)能生成较高质量的图片,但是没有编码器,难以训练,并且遭受“模式崩溃“问题(无法建模刻画真实数据的多样性)之苦。为了解决这些问题,Google Brain的研究员提出了Wasserstein Auto Encoder模型。


从VAE开始




标准的自编码器的结构如下图所示,原始数据经过编码器,编码成隐向量,然后隐向量通过解码器,解码出原始图片,将这些隐向量存起来,之后就可以通过解码器重构图像:

但是,我们想建一个产生式网络,而不是一个存储图片的网络。像上面的网络一样,合理的潜在变量都是编码器从原始图片中产生的,因此我们还不能产生任何未知的东西。


VAE在标准自编码器的基础上加了一个约束,即强迫编码器生成服从单位高斯分布的潜在变量。那么产生新的图片时,只要从单位高斯分布中采样,然后传给解码器就行了。


因此,在训练VAE的时候,需要考虑两个部分

1. 潜在变量的分布于编码器引入的分布Q的差异,这部分由KL散度进行衡量。

2. 重构图片的误差。


而为了体现生成的潜在变量约束与某种分布,使用一种重参数化的技术,即编码器的输出变为该分布的均值和方差,潜在变量从该分布中采样之后,再输入到解码器。


模型结构




从上图中可以看出,WAE和VAE其实是很相似的!目标均为最小化两项

1.重构损失函数

2.先验分布与编码器Q引入的分布的差异。


在VAE中,对于所有从 中取样的不同输入样本x,都迫使【红色圆形】匹配先验分布【白色三角形】,而WAE迫使连续的混合分布匹配


下面详细讨论WAE的两个优化目标。


1.重构损失,为了衡量两个概率分布(原始数据的分布,生成数据的分布)之间的距离,常用的两类方法是f-散度和optimal transport  f散度的公式为:


 其中,f是满足f(1) = 0的凸函数。f-散度常见的例子有KL散度(Kullback-Leibler divergence)和JS散度(Jenson-Shannon divergence)。


 OT的定义为:

其中,c(x, y)为损失函数。当p ≥ 1时,若c(x, y) = dp(x, y),则称为Wasserstein距离。

 

 2.正则子

 论文中提出了两种正则子:

  • 基于GAN的正则子,即,然后使用对抗训练加以逼近。

  • 基于MMD(Maximun mean discrepancy)的正则子,即


 其中,

MMD在符合高维分布数据上表现出色,比基于GAN逼近要节省算力。


 因此最终,WAE的计算目标为:


实验结果




研究人员在MNIST数据集和CelebA 数据集上试验了WAE,可以看出WAE重建的画质高于VAE。


论文链接:https://arxiv.org/abs/1711.01558



-END-

专 · 知


人工智能领域主题知识资料查看与加入专知人工智能服务群

【专知AI服务计划】专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询


请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~



关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员