英伟达推出GAN“超级缝合体”，输入文字草图语义图都能生成逼真照片

会员服务 ·

英伟达推出GAN“超级缝合体”，输入文字草图语义图都能生成逼真照片

2021 年 12 月 13 日 量子位

晓查发自凹非寺
量子位报道 | 公众号 QbitAI

继GauGAN2之后，英伟达推出了一个GAN的“超级缝合体”——PoE GAN。

PoE GAN可以接受多种模态的输入，文字描述、图像分割、草图、风格都可以转化为图片。

而且它可以同时接受以上几种输入模态的任意两种组合，这便是PoE的含义。

所谓PoE是Hinton在2002年提出的“专家乘积”（product of experts）概念，每个专家（单独模型）被定义为输入空间上的一个概率模型。

而每种单独的输入模态都是合成图像必须满足的约束条件，因此满足所有约束的一组图像是满足每个约束集合的交集。

假设每种约束的联合条件概率分布都服从高斯分布，就用单条件概率分布的乘积来表述交集的分布。

在此条件下，为了使乘积分布在一个区域具有高密度，每个单独的分布需要在该区域具有高密度，从而满足每个约束。

而PoE GAN的重点是如何将每种输入混合在一起。

PoE GAN的设计

PoE GAN的生成器使用全局PoE-Net将不同类型输入的变化混合起来。

我们将每个模态输入编码为特征向量，然后使用PoE汇总到全局PoE-Net中。解码器不仅使用全局PoE-Net的输出，还直接连接分割和草图编码器，以此来输出图像。

全局PoE-Net的结构如下，这里使用一个潜在的特征矢量z⁰作为样本使用PoE，然后由MLP处理以输出特征向量w。

在鉴别器部分，作者提出了一种多模态投影鉴别器，将投影鉴别器推广到处理多个条件输入。

与计算图像嵌入和条件嵌入之间单个内积的标准投影鉴别器不同，这里要计算每个输入模态的内积，并将其相加以获得最终损失。

随意变换输入的GAN

PoE可以在单模态输入、多模态输入甚至无输入时生成图片。

当使用单个输入模态进行测试时，PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。

例如在分割输入模态中，PoE-GAN优于此前的SPADE和OASIS。

在文本输入模态中，PoE-GAN优于文本到图像模型DF-GAN、DM-GAN+CL。

当以模式的任意子集为条件时，PoE-GAN可以生成不同的输出图像。下面展示了PoE-GAN的随机样本，条件是两种模式（文本+分割、文本+草图、分割+草图）在景观图像数据集上。

PoE-GAN甚至还能没有输入，此时PoE-GAN就会成为一个无条件的生成模型。以下是PoE-GAN无条件生成的样本。

团队介绍

论文通讯作者是英伟达著名工程师刘洺堉，他的研究重点是深度生成模型及其应用。英伟达Canvas和GauGAN等有趣的产品均出自他手。

论文一作是黄勋，北京航空航天大学本科毕业，康奈尔大学博士，现在在英伟达工作。

论文地址：
https://arxiv.org/abs/2112.05130

PoE：
https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf

投影鉴别器：
https://arxiv.org/abs/1802.05637

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

GAN

关注 91

GAN：生成性对抗网，深度学习模型的一种，在神经网络模型中引入竞争机制，非常流行。

【CVPR2022】多视图聚合的大规模三维语义分割

专知会员服务

21+阅读 · 2022年4月20日

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成

专知会员服务

17+阅读 · 2021年10月23日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

19+阅读 · 2021年9月23日

【ICML2021】深度隐式图匹配

专知会员服务

25+阅读 · 2021年9月22日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

专知会员服务

24+阅读 · 2021年1月18日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【ICML2020-西电】用于语言生成的递归层次主题引导RNN

专知会员服务

22+阅读 · 2020年6月30日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

OpenAI发布DALL-E 2，文字生成图像工具新的“天花板”？

学术头条

0+阅读 · 2022年4月7日

朱俊彦团队最新论文：用GAN监督学习给猫狗加表情！真的很丝滑！

CVer

0+阅读 · 2021年12月29日

最新3D GAN可生成三维几何数据了！模型速度提升7倍，英伟达&斯坦福出品

量子位

0+阅读 · 2021年12月21日

英伟达把P图软件GAN了

量子位

0+阅读 · 2021年12月5日

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

机器之心

0+阅读 · 2021年11月26日

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成逼真图像

机器之心

0+阅读 · 2021年11月23日

用GAN也可以P图，效果还不输PS | 英伟达出品

量子位

0+阅读 · 2021年11月12日

ICCV 2019 最佳论文《SinGAN：从单张自然图像学习生成式模型》中文全译

AI科技评论

11+阅读 · 2019年10月30日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

业界 | GAN生成的假脸太逼真了！别怕，十招教你识别AI生成的假图像

大数据文摘

15+阅读 · 2018年12月18日

融合多尺度稀疏与稠密特征结构的透视不变图像匹配模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深层神经网络的多模态快速稀疏表征器

国家自然科学基金

3+阅读 · 2014年12月31日

生物医学图像重建中的数学模型与计算方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

仿视觉感知机制的图像场景语义分类研究

国家自然科学基金

1+阅读 · 2013年12月31日

图像处理中的Toeplitz矩阵压缩恢复理论与快速算法

国家自然科学基金

0+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人动作姿态快速生成与交互控制技术研究

国家自然科学基金

1+阅读 · 2010年12月31日

不可压缩湍流的能量级串及拟序结构的生成机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

非有限域上的广义低密度生成阵码理论与应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

大型发电机多数字源快速差动保护关键技术的研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多层次语言粒度的文本情感分类研究

国家自然科学基金

1+阅读 · 2008年12月31日

NFormer: Robust Person Re-identification with Neighbor Transformer

Arxiv

0+阅读 · 2022年4月20日

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

Arxiv

0+阅读 · 2022年4月20日

Dual-Domain Image Synthesis using Segmentation-Guided GAN

Arxiv

0+阅读 · 2022年4月19日

Unsupervised Learning of Efficient Geometry-Aware Neural Articulated Representations

Arxiv

0+阅读 · 2022年4月19日

Dress Code: High-Resolution Multi-Category Virtual Try-On

Arxiv

0+阅读 · 2022年4月18日

HFT-ONLSTM: Hierarchical and Fine-Tuning Multi-label Text Classification

Arxiv

0+阅读 · 2022年4月18日

medXGAN: Visual Explanations for Medical Classifiers through a Generative Latent Space

Arxiv

0+阅读 · 2022年4月17日

VoiceFixer: A Unified Framework for High-Fidelity Speech Restoration

Arxiv

0+阅读 · 2022年4月17日

Separating the World and Ego Models for Self-Driving

Arxiv

0+阅读 · 2022年4月14日

Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models

Arxiv

13+阅读 · 2021年3月8日

VIP会员