谷歌大脑打造“以一当十”的GAN：仅用10%标记数据，生成图像却更逼真

会员服务 ·

谷歌大脑打造“以一当十”的GAN：仅用10%标记数据，生成图像却更逼真

2019 年 3 月 21 日 新智元

新智元AI技术峰会倒计时6天

新智元将于3月27日在北京泰富酒店举办“2019新智元AI技术峰会——智能云•芯世界”，聚焦智能云和AI芯片发展，重塑未来AI世界格局。

同时，新智元将现场权威发布若干AI白皮书，聚焦产业链的创新活跃，助力中国在世界级的AI竞争中实现超越。

参会二维码：

新智元报道

来源：Google AI

编辑：大明

【新智元导读】近日，谷歌大脑研究人员提出了一种基于自监督和半监督学习的“条件GAN”，使用的标记数据量大降90%，生成图像的质量比现有全监督最优模型BigGAN高出20%（以FID得分计），有望缓解图像生成和识别领域标记数据量严重不足的问题。

生成对抗网络（GAN）是一类强大的深度生成模型。GAN背后的主要思想是训练两个神经网络：生成器负责学习如何合成数据，而判别器负责学习如何区分真实数据与生成器合成的虚假数据。目前，GAN已成功用于高保真自然图像合成，改善学习图像压缩质量，以及数据增强等任务。

对于自然图像合成任务来说，现有的最优结果是通过条件GAN实现的。与无条件GAN不同，条件GAN在训练期间要使用标签（比如汽车，狗等）。虽然数据标记让图像合成任务变得更容易实现，在性能上获得了显著提升，但是这种方法需要大量标记数据，而在实际任务中很少有大量标记数据可用。

随着ImageNet上训练过程的持续，生成的图像逼真度进步明显

谷歌大脑的研究人员在最近的《用更少的数据标签生成高保真图像》中，提出了一种新方法来减少训练最先进条件GAN所需的标记数据量。文章提出结合大规模GAN的最新进展，将高保真自然图像合成技术与最先进技术相结合，使数据标记数量减少到原来的10%。

在此基础上，研究人员还发布了Compare GAN库的重大更新，其中包含了训练和评估现代GAN所需的所有组件。

利用半监督和自监督方式提升预测性能

条件GAN与基线BigGAN的FID分数对比，图中黑色竖线为BigGAN基线模型（使用全部标记数据）得分。S3GAN在仅使用10%标记数据的情况下，得分比基线模型最优得分高20%

在条件GAN中，生成器和判别器通常都以分类标签为应用条件。现在，研究人员建议使用推断得出的数据标签，来替换手工标记的真实标签。

上行：BigGAN全监督式学习生成的128×128像素最优图像样本。下行为S3GAN生成的图像样本，标记数据量降低了90%，FID得分与BigGAN表现相当

为了推断大型数据集中多数未标记数据的高质量标签，可以采取两步方法：首先，仅使用数据集的未标记部分来学习特征表示。

为了学习特征表示，需要利用新方法，以不同的方法利用自我监督机制：将未标记的图像进行随机旋转，由深度卷积神经网络负责预测旋转角度。这背后的思路是，模型需要能够识别主要对象及其形状，才能在此类任务中获得成功。

对一幅未标记的图像进行随机旋转，网络的任务是预测旋转角度。成功的模型需要捕捉有意义的语义图像特征，这些特征可用于完成其他视觉任务

研究人员将训练网络的一个中间层的激活模式视为输入的新特征表示，并训练分类器，以使用原始数据集的标记部分识别该输入的标签。由于网络经过预训练，可以从数据中提取具有语义意义的特征，因此，训练此分类器比从头开始训练整个网络更具样本效率。最后使用分类器对未标记的数据进行标记。

为了进一步提高模型质量和训练的稳定性，最好让判别器网络学习有意义的特征表示。通过这些改进手段，在加上大规模的训练，使得新的条件GAN在ImageNet图像合成任务上达到了最优性能。

给定潜在向量，由生成器网络生成图像。在每行中，最左侧和最右侧图像的潜在代码之间的线性插值导致图像空间中的语义插值

CompareGAN：用于训练和评估GAN的库

对GAN的前沿研究在很大程度上依赖于经过精心设计和测试的代码库，即使只是复制或再现先前的结果和技术，也需要付出巨大努力。

为了促进开放科学并让研究界从最近的进步中获益，研究人员发布了Compare GAN库的重大更新。该库包括现代GAN中常用的损失函数，正则化和归一化方案，神经架构和量化指标，现已支持：

GPU和TPU训练
通过Gin进行轻量级配置（含实例）
通过TensorFlow数据集库提供大量数据集

未来方向：自监督学习会让GAN更强大

由于标记数据源和未标记数据源之间的差距越来越大，让模型具备从部分标记的数据中学习的能力变得越来越重要。

目前来看，自监督学习和半监督学习的简单而有力的结合，有助于缩小GAN的这一现实差距。自监督是一个值得研究的领域，值得在该领域开展面向其他生成建模任务的研究。

论文地址：

https://arxiv.org/pdf/1903.02271.pdf

参考链接：

https://ai.googleblog.com/2019/03/reducing-need-for-labeled-data-in.html

新智元春季招聘开启，一起弄潮AI之巅！

岗位详情请戳：

【春招英雄贴】新智元呼召智士主笔，2019勇闯AI之巅！

【2019新智元 AI 技术峰会倒计时7天】

2019年的3月27日，新智元再汇AI之力，在北京泰富酒店举办AI开年盛典——2019新智元AI技术峰会。峰会以“智能云•芯世界“为主题，聚焦智能云和AI芯片的发展，重塑未来AI世界格局。

同时，新智元将在峰会现场权威发布若干AI白皮书，聚焦产业链的创新活跃，评述华人AI学者的影响力，助力中国在世界级的AI竞争中实现超越。

购票二维码

活动行购票链接：http://hdxu.cn/9Lb5U

点击文末“阅读原文”，马上参会！

登录查看更多

相关内容

GAN

关注 90

GAN：生成性对抗网，深度学习模型的一种，在神经网络模型中引入竞争机制，非常流行。

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知会员服务

40+阅读 · 2020年7月5日

生成对抗网络GAN正则化方法: 近期研究综述

专知会员服务

107+阅读 · 2020年5月21日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

194+阅读 · 2020年5月14日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

46+阅读 · 2020年4月19日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

26+阅读 · 2020年4月6日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

31+阅读 · 2020年3月30日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

20+阅读 · 2020年3月28日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

26+阅读 · 2020年3月18日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

182+阅读 · 2020年2月22日

【AAAI2020论文】分类感知的生成式对抗网络，具有分类文本生成的层次进化学习 (附pdf)

专知会员服务

20+阅读 · 2019年11月19日

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

GAN用于无监督表征学习，效果依然惊人……

机器之心

12+阅读 · 2019年7月9日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

能生成逼真图像的不只有 GAN

机器学习算法与Python学习

8+阅读 · 2019年6月6日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

谷歌大脑：像BigGAN那样生成高清大图不一定需要大量图像标签

机器之心

8+阅读 · 2019年3月8日

业界 | GAN生成的假脸太逼真了！别怕，十招教你识别AI生成的假图像

大数据文摘

15+阅读 · 2018年12月18日

DeepMind：从52.52到166.3，图像生成再现巨大突破

论智

3+阅读 · 2018年10月3日

基于GAN的极限图像压缩框架

论智

11+阅读 · 2018年4月15日

Robust Graph Neural Network Against Poisoning Attacks via Transfer Learning

Arxiv

6+阅读 · 2019年8月20日

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Arxiv

4+阅读 · 2018年7月12日

Learning to Sketch with Shortcut Cycle Consistency

Arxiv

5+阅读 · 2018年5月1日

XGAN: Unsupervised Image-to-Image Translation for Many-to-Many Mappings

Arxiv

3+阅读 · 2018年4月25日

Unsupervised Neural Machine Translation with Weight Sharing

Arxiv

6+阅读 · 2018年4月24日

KBGAN: Adversarial Learning for Knowledge Graph Embeddings

Arxiv

6+阅读 · 2018年4月16日

On the Robustness of the CVPR 2018 White-Box Adversarial Example Defenses

Arxiv

3+阅读 · 2018年4月10日

DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks

Arxiv

4+阅读 · 2018年4月3日

What Level of Quality can Neural Machine Translation Attain on Literary Text?

Arxiv

5+阅读 · 2018年1月15日

Face Synthesis from Visual Attributes via Sketch using Conditional VAEs and GANs

Arxiv

4+阅读 · 2017年12月30日

VIP会员