一图生万物！英伟达推超强图像转换神器，小样本一秒猫变狗

会员服务 ·

一图生万物！英伟达推超强图像转换神器，小样本一秒猫变狗

2019 年 5 月 10 日 新智元

新智元原创

编辑：金磊、小芹

【新智元导读】前一阵子英伟达的StyleGAN可谓是火了一把，近日又出大招了！以往图像到图像转换需要大量的图像做训练样本，但是在英伟达的这项工作中，仅需小样本就可以做到图像到图像的转换(代码已开源)！

小样本，大成就！

当我们看到一只站着的老虎时，我们很容易想象出来它躺着的样子。

这是因为我们根据其它动物平躺的姿势就是可以做联想。

然而，对于机器来说就没有这么简单了。在现存的非监督图像到图像转换模型需要大量的训练图像。

不仅如此，一个模型能够转换图像的另一个前提是图像中的对象必须在训练集中存在。

近期，英伟达、康纳尔大学和阿尔托大学联合发表了一篇文章——小样本(few-shot)非监督图像到图像转换。

论文地址：

https://arxiv.org/pdf/1905.01723.pdf

简单来说，就是输入一只金毛，在训练过程当中，即便第一次看到一种新动物，也能让它像金毛那样吐舌头、闭嘴巴、歪头。

若是输入一张炒面的图，该模型也可以让其它食物变成炒面。

这项工作还提供了在线测试，新智元小编们便拿自家的猫主子“西瓜”和“多比”做了一下测试：

输入“西瓜”得到的结果

输入“多比”得到的结果

在线测试连接如下，读者们快快玩起来吧：

https://nvlabs.github.io/FUNIT/petswap.html

该项目的代码也已开源，地址如下：

https://github.com/NVlabs/FUNIT

FUNIT：2阶段图像转换，非常有趣！

我们提出的FUNIT框架旨在通过利用在测试时可用的几个目标类图像，将源类的图像映射到目标类的类似图像。

为了训练FUNIT，我们使用来自一组对象类(例如各种动物物种的图像)中的图像，称为源类(source classes)。我们不假设任何两个类之间存在配对的图像(即，不同物种的任何两个动物都不会是完全相同的姿势)。

我们使用源类里的图像来训练一个multi-class无监督图像到图像转换模型。

在测试过程中，我们从一个称为目标类(target class)的新对象类中提供少量几张图像。模型必须利用少量的目标图像来将源类里的任何图像转换为目标类里的类似图像。

图1

训练。训练集由各种对象类(源类)的图像组成。我们训练了一个模型在这些源对象类之间转换图像。

部署。我们向训练模型显示极少量目标类里的图像，这就足以将源类的图像转换为目标类的类似图像了，即使模型在训练期间从未见过目标类的任何图像。

需要注意的是，FUNIT生成器有两个输入：1)一个内容图像；2)一组目标类图像。它的目的是生成与目标类图像相似的输入图像的转换。

我们的框架由一个有条件的图像发生器G和一个多任务对抗性鉴别器D组成。

与现有无监督image-to-image translation框架中有条件的图像生成器不同，它们是将一张图像作为输入，而我们的生成器G需要同时将一张内容图像x和一组K类图像{y1, ..., yK}作为输入，生成输出图像x¯，公式如下：

实验结果：姿态和种类一起转换，超越基准模型

主要结果

如表1所示，FUNIT框架在Animal Faces和North American Birds两个数据集的所有性能指标都优于用于小样本无监督图像到图像转换任务的基线模型。

FUNIT在Animal Faces数据集的1-shot和5-shot设置上分别达到82.36和96.05 的Top-5 测试精度，以及在North American Birds数据集上分别达到60.19和75.75的Top-5 测试精度。

这些指标都明显优于相应的基准模型。

表1：FUNIT与基线模型的性能比较。↑表示数值越大越好，↓表示越小越好。

在图2中，我们对FUNIT-5计算的few-shot translation的结果进行了可视化。

图2：无监督图像-图像转换结果的可视化。计算结果采用FUNIT-5模型。

从上到下分别是来自动物面孔、鸟、花和食物数据集的结果。每个示例随机展示了2张目标类中的图像，输入内容图像x，以及转换后的输出图像x¯。

结果表明，模型能够成功地将源类的图像转换为新的类中的相似图像。对象在输入内容图像x和相应输出图像x¯中的姿态基本保持不变。输出图像也非常逼真，类似于目标类中的图像。

图3提供FUNIT与基线模型的结果比较。可以看到，FUNIT生成了高质量的图像转换输出。

图3：小样本图像到图像转换效果的比较。

从左到右的列分别是输入内容图像x，两个输入目标类图像y1，y2，来自不公平的StarGAN基线的转换结果，来自公平的StarGAN基线的转换结果，以及来自FUNIT框架的结果。

参考链接：

https://www.reddit.com/r/MachineLearning/comments/bmmyae/r_fewshot_unsupervised_imagetoimage_translation/

https://arxiv.org/pdf/1905.01723.pdf

https://nvlabs.github.io/FUNIT/petswap.html

https://github.com/NVlabs/FUNIT

新智元春季招聘开启，一起弄潮 AI 之巅！

岗位详情请戳：

【加入社群】

新智元 AI 技术 + 产业社群招募中，欢迎对 AI 技术 + 产业落地感兴趣的同学，加小助手微信号：aiera2015_2 入群；通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名 - 公司 - 职位；专业群审核较严，敬请谅解）。

登录查看更多

相关内容

FUNIT

关注 0

【ECCV2020-海康威视】用于深度表示学习的无监督图像分类

专知会员服务

70+阅读 · 2020年7月6日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知会员服务

239+阅读 · 2020年3月2日

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

专知会员服务

30+阅读 · 2020年2月6日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

【论文|知识图谱】小样本知识图谱补全，Few-Shot Knowledge Graph Completion

专知会员服务

121+阅读 · 2019年11月30日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

专知会员服务

55+阅读 · 2019年11月20日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

英伟达小样本换脸AI：金毛一秒变二哈，还有在线试玩

网易智能菌

6+阅读 · 2019年10月30日

NVIDIA视频合成有多「骚」，看看蒙娜丽莎你就知道了

机器学习算法与Python学习

17+阅读 · 2019年10月28日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

专知

9+阅读 · 2019年10月4日

如何利用少样本无监督学习实现高质量图像转换 | 公开课

智东西

4+阅读 · 2019年8月14日

【学界】英伟达又火了一篇图像转换论文，我们竟然用来吸猫

GAN生成式对抗网络

3+阅读 · 2019年5月10日

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

新智元

14+阅读 · 2019年4月17日

CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

PaperWeekly

13+阅读 · 2019年1月22日

镜头间的风格转换行人重识别

统计学习与视觉计算组

13+阅读 · 2018年8月16日

用 Keras 搭建 GAN：图像去模糊中的应用（附代码）

AI研习社

8+阅读 · 2018年4月5日

Few-Shot Knowledge Graph Completion

Arxiv

14+阅读 · 2019年11月26日

LadderNet: Multi-path networks based on U-Net for medical image segmentation

Arxiv

7+阅读 · 2019年8月28日

Knowledge Flow: Improve Upon Your Teachers

Arxiv

5+阅读 · 2019年4月11日

Relation-aware Graph Attention Network for Visual Question Answering

Arxiv

4+阅读 · 2019年3月29日

Generative Dual Adversarial Network for Generalized Zero-shot Learning

Arxiv

7+阅读 · 2018年11月12日

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Arxiv

4+阅读 · 2018年7月12日

Convexity Shape Prior for Level Set based Image Segmentation Method

Arxiv

4+阅读 · 2018年5月22日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks

Arxiv

4+阅读 · 2018年4月3日

Zero-Shot Sketch-Image Hashing

Arxiv

5+阅读 · 2018年3月6日

VIP会员