对抗高质量图像生成中的模式崩溃,及相关论文推荐

2019 年 9 月 8 日 AI科技评论

又一个问题已经接近宣告解决

作者:杨晓凡


随着 ICCV 2019 发榜,许多学者已经开始公开以及传播自己的 ICCV 录用论文。计算机视觉领域重磅大佬、UC 伯克利 Jitendra Malik 和南京大学合作的一篇论文引发了我们的注意。我们也一同回顾一下与它相关的几篇论文。

一.

中文标题:过条件 IMLE 从语义布局图中生成多样的图像

作者:Ke Li(UC 伯克利), Tianhao Zhang(南京大学), Jitendra Malik(UC 伯克利)
论文地址: https://arxiv.org/abs/1811.12373
ICCV 2019 录用论文
论文项目页面: https://people.eecs.berkeley.edu/~ke.li/projects/imle/scene_layouts/

在对应白天-黑夜的隐含噪声向量控制下,图像内容可以在白天和黑夜之间进行连续的变化

亮点简介:对于不使用 GANs 的,也就是基于端对端网络的条件图像生成以及图像转换任务来说,大多数现有方法都只能生成一张或者有限张好的图像;甚至于,使用 GANs 的方法虽然理论上可以不受数量限制,但实际上也需要想办法克服模式崩溃(mode collapse)问题,不然生成的图像都大同小异。这篇论文就是 Jitendra Malik 等人对模式崩溃问题提出的解决方案,目标是能根据语义分割图像生成任意多张对应的真实图像,在保留同样的语义布局的同时,可以有无限多的外观变化。

他们的方法是使用了最近提出的 Implicit Maximum Likelihood Estimation (隐式最大似然估计,IMLE) 框架,在网络中用隐含向量对应图像外观的不同因素,从而通过隐含向量的变化,控制图像的外观变化;这样,对图像风格的变化有了更多控制,通过不同向量的值的组合也就能让得到的结果更多样、不重复。另外,即便使用同样的模型架构,他们的方法生成的图像也瑕疵更少。虽然学习到的隐含空间缺乏监督,但是能够学习到一些合理的结构,就能够帮助让模型发挥出很多的表现。
这篇论文的方法同时让我们想起 ICCV 2017 论文 《Photographic Image Synthesis with Cascaded Refinement Networks》 和 CVPR 2019 论文 《A Style-Based Generator Architecture for Generative Adversarial Networks》。AI 科技评论下面也做简单介绍。

二.
中文标题: 用级联优化网络生成照片级图像
作者: 斯坦福大学博士陈启峰,英特尔实验室视觉组主管 Vladlen Koltun
论文地址: https://arxiv.org/abs/1707.09405v1
ICCV 2017 录用论文
项目地址: https://github.com/CQFIO/PhotographicImageSynthesis

亮点简介: 在这篇论文发表时,用 GANs 生成大尺寸、高精度、高真实度图像的方法尚未出现,这篇论文的成果可以说是一大突破;而且论文只用了端到端的网络就达到了这个目标。
具体来说,「从一张真实世界的图像生成语义分割布局图像」这一监督学习任务已经得到了较好的解决,那么反过来,从「从语义布局图像生成照片级图像」也就是完全有可能的,这就为生成大尺寸、高精度、高真实度图像打开了一扇窗户。当然了,真的做到这一点还是需要一些技巧的,作者们通过大量实验,总结出模型需要兼顾全局协调性、高分辨率、记忆力三个特点才能达到好的效果,并设计了对应的逐级提高分辨率的级联优化网络 CRN。另外,他们也采取了一些手段,首先让模型生成多张不同的图像,然后从多张图像中选择最真实的部分进行拼接。最终达到了非常好的效果。

三.

中文标题:一个基于风格的 GANs 图像生成架构

论文作者:NVIDIA 实验室 Tero Karras, Samuli Laine, Timo Aila

论文地址:https://arxiv.org/abs/1812.04948

CVPR 2019 最佳论文之一

项目地址:https://github.com/NVlabs/stylegan

人脸生成公开 Demo:https://thispersondoesnotexist.com/

论文亮点: 我们都知道,GANs 生成图像都是从一个随机种子开始的,然后我们就只能期盼这是一个好的随机种子,可以带来好的图像 —— 说白了我们对中间的生成过程完全没有控制。在条件图像生成的论文中人们对这个问题有一些研究,但是没有大的突破。
这篇论文提出的新架构从图像风格迁移论文中得到了启发。他们的模型架构可以自动地、无监督地学习到不同的高级别属性(比如在人脸上训练时可以学习到姿态和肤色),而且在生成的图像中有足够的随机变化。他们方法的关键在于,对控制图像中变化的隐含变量进行了解耦,这样我们就得以具体地控制不同高级别属性的取值以及它们的变化。他们提出的两种新方法也可以用在任意的生成器架构中。

这三篇论文中,第一篇、第二篇论文都有「从语义布局图生成图像」,而第一篇和第三篇论文都有「学习隐含变量空间、尝试隐含变量解耦」。这三篇论文值得放在一起读一读,仔细揣摩对比一下他们的做法。

点击
阅读原文
查看本文更多内容
登录查看更多
1

相关内容

模式崩溃(Mode collapse):生成器产生单个或有限的模式。理想情况下,生成模型应该能够生成10个数字,如果只能生成其中的几个,而错失其它的模式,则我们称这种现象为模式崩溃(mode collapse)。
专知会员服务
107+阅读 · 2020年5月21日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
论文推荐 | 生成对抗网络GAN论文TOP 10
机器学习算法与Python学习
5+阅读 · 2019年3月20日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
Top
微信扫码咨询专知VIP会员