会员服务 ·

【学界】图像自动合成新方法，结果逼真堪比CG｜港中大英特尔CVPR论文

2018 年 5 月 8 日 GAN生成式对抗网络

来源：量子位

你可能不相信，上面这张图是合成的。

CG要达到这样真实的效果，目前主流的做法是先手动建模，把物体的表面结构搭建出来，然后再贴图、定材质、上灯光，最后渲染。

深度神经网络的出现，给CG带来一道曙光。

根据大致的草图框架（也称语义布局法），深度神经网络现在可以直接合成真实效果的图片。

不过，主流图像合成所用的模型大多是参数模型（parametric models）。这种模型，所有和逼真外观有关的数据，都会体现在深度神经网络的权重里。

不过，这与人类画画的方式不太一样。

我们在画画的时候，不是完全凭记忆复刻现实的。而是把外界真实的物体当作一个参考，然后细节上微调，进行再创作。

参数模型的优点是具有高度的表现力（highly expressive），可进行端对端训练。而非参数模型（nonparametric models）的优点，是可以在测试时提取大型的真实图片数据集里的素材。

为了集结这两种模型的优势，香港中文大学联合英特尔视觉计算实验室共同研究出了一种半参数模型，简称为SIMS，相关工作论文Semi-parametric Image Synthesis已被CVPR 2018接收为口头汇报。

他们工作的思路是：

1）先用大型真实图像数据集先训练非参数模型，相当于获得了一个合成素材库。

2）然后基于语义布局（Semantic layout），把这些素材填充进去，就像一张图被分割成好几个版块之后，再往上打补丁充实细节。

“语义布局”处理，相当于是个草图，指导合成用的

接缝的地方，深度网络会自行融合，并计算好版块之间物体的空间关系，进一步加强视觉的真实效果。

实验结果非常不错。

SIMS合成的效果

在Cityspaces、NYU、ADE20K等数据集上训练得到的效果，真实程度比去年8月量子位报道过的合成方法提高了不少。

对比上下图，你会发现，SIMS合成的图在清晰度上，光线折射关系上，都有出色的表现。物体融合的时候也不会发生扭曲。

去年方法的效果

语义布局合成法，也正是本论文的两位作者——英特尔实验室视觉组主管Vladlen Koltun与的陈启峰提出的。

换句话说，这篇论文是在陈启峰和Koltun之前工作的基础上，作出了进一步的优化。

图片的合成流水线

首先，给一个草图。告诉模型，你想合成的图片布局是什么样的。就像下图最左上的小图那样。

另外，也要砌一个素材库。

巧妇难为无米之炊。模型并不能自己瞎开脑洞编造合成用的素材。得“吃”大量的真实图片之后建一个记忆库(External Memory Bank)。

这两步完成后，模型就根据草图切割的形状，提取出记忆库里能对上号的素材，比如说路边的建筑啊，停放好的车辆，以及树啥的。如（b）图所示。

合适的素材拎出来，Transformation网络负责微调，使得各版块的素材之间二维融合的效果比较好，不至于看起来很突兀。

最后，Ordering网络计算出这些板块的空间位置，给予适当的光影关系，合成一幅逼真的图片。

OMT

这篇论文的一作和导师都很有来头。

先来介绍一下一作，齐晓娟。

齐晓娟，香港中文大学计算机科学与工程系4年级博士生，本科就读于上海交大电子科学与技术专业。

目前研究方向主要是计算机视觉，深度网络和医学影像分析。目前攻克的课题集中在语义分割，3D场景理解和图像合成上。

据GitHub上的资料介绍，她已有三篇文章被CVPR2018收录。

除了半参数图像合成这篇，另外两篇分别是GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation，Referring Image Segmentation via Recurrent Refinement Networks。

齐晓娟曾在英特尔视觉计算实验室(Intel Visual Computing Lab)实习过半年，师从Vladlen Koltun，研究课题就是图像合成。Vladlen Koltun也是本篇论文的作者之一。

导师贾佳亚博士，不仅是香港中文大学计算机科学与工程系的终生教授，还是腾讯优图实验室的杰出科学家。

贾佳亚教授于去年5月加入腾讯优图实验室。随后组建团队，打造出了好几个产品应用。那个刷爆了票圈的军装照，还有“一键卸妆”应用，都出自他们团队。

在贾佳亚教授的带领下，腾讯优图实验室在ICCV 2017顶会上取得了十分漂亮的成绩单，共有12篇论文入围。今年的CVPR，贾佳亚教授团队一共中了6篇论文。

二作陈启峰的经历也十分传奇。

曾放弃清华保送的资格。本科就读于香港科技大学，并获取2011年的ACM国际大学生程序设计竞赛金牌。本科毕业后，一举拿下九所名校全额奖学金offer，最后他选择了斯坦福。现在英特尔实验室任研究人员。

最后，附code：

https://github.com/xjqicuhk/SIMS

以及论文：

http://vladlen.info/papers/SIMS.pdf

高质量延伸阅读

☞【学界】OpenPV：中科院研究人员建立开源的平行视觉研究平台

☞【征稿通知】IEEE IV 2018“智能车辆中的平行视觉”研讨会

☞【学界】基于平行视觉的特定场景下行人检测

☞【征稿】神经计算专刊Virtual Images for Visual Artificial Intelligence

☞【学界】ParallelEye：面向交通视觉研究构建的大规模虚拟图像集

☞【CFP】Virtual Images for Visual Artificial Intelligence

☞【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望

☞【智能自动化学科前沿讲习班第1期】王飞跃教授：生成式对抗网络GAN的研究进展与展望

☞【智能自动化学科前沿讲习班第1期】王坤峰副研究员：GAN与平行视觉

☞【重磅】平行将成为一种常态：从SimGAN获得CVPR 2017最佳论文奖说起

☞【平行讲坛】平行图像：图像生成的一个新型理论框架

☞【学界】ETH Zurich提出新型网络「ROAD-Net」，解决语义分割域适配问题

☞【学界】深度概览卷积神经网络全景图，没有比这更全的了

☞【深度】基于深度学习的目标检测算法综述

☞【学界】DeepMind论文：CNN的变形稳定性和池化无关，滤波器平滑度才是关键

☞【干货】为什么深度学习要使用大量数据？

登录查看更多

相关内容

非参数模型

关注 0

非参数模型是指系统的数学模型中非显式地包含可估参数。例如，系统的频率响应、脉冲响应、阶跃响应等都是非参数模型。

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

[CVPR 2020-港中文-MIT] 神经架构搜索鲁棒性

专知会员服务

26+阅读 · 2020年4月7日

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

专知会员服务

10+阅读 · 2020年3月20日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

图像分区域合成，这个新方法实现了人脸的「精准整容」

机器之心

6+阅读 · 2019年12月16日

CVPR 2019：微软最新提出ObjGAN，输入一句话秒生成图片

新智元

7+阅读 · 2019年6月23日

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

机器之心

7+阅读 · 2019年6月23日

头像神器！照片一键秒转简笔画，清华刘永进等CVPR 19 Oral研究 | 在线可玩

量子位

18+阅读 · 2019年6月16日

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

量子位

9+阅读 · 2019年6月10日

CVPR2019 | 港中文&腾讯优图等提出：暗光下的图像增强

极市平台

15+阅读 · 2019年6月5日

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

新智元

14+阅读 · 2019年4月17日

业界 | GAN生成的假脸太逼真了！别怕，十招教你识别AI生成的假图像

大数据文摘

15+阅读 · 2018年12月18日

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

GAN生成式对抗网络

7+阅读 · 2018年12月7日

【BicycleGAN】NIPS 2017论文图像转换多样化，大幅提升pix2pix生成图像效果

专知

6+阅读 · 2017年12月2日

Describing like humans: on diversity in image captioning

Arxiv

3+阅读 · 2019年3月28日

Pluralistic Image Completion

Arxiv

8+阅读 · 2019年3月11日

Embedding Uncertain Knowledge Graphs

Arxiv

12+阅读 · 2019年2月26日

Unsupervised Image Captioning

Arxiv

7+阅读 · 2018年11月27日

Semantically Enhanced Models for Commonsense Knowledge Acquisition

Arxiv

3+阅读 · 2018年9月27日

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

Arxiv

3+阅读 · 2018年8月20日

Semi-parametric Image Synthesis

Arxiv

4+阅读 · 2018年4月29日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

5+阅读 · 2018年4月5日

PointCNN

Arxiv

8+阅读 · 2018年1月25日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

3+阅读 · 2017年11月24日

VIP会员