MirrorGAN出世！浙大等提出文本-图像新框架，刷新COCO纪录

会员服务 ·

MirrorGAN出世！浙大等提出文本-图像新框架，刷新COCO纪录

2019 年 3 月 16 日 新智元

新智元报道

编辑：金磊、克雷格

【新智元导读】浙大、悉尼大学等高校研究员提出MirrorGAN，作为全局-局部注意和语义保持的文本-图像-文本框架，解决文本描述和视觉内容之间的语义一致性问题，并在COCO数据集上刷新了记录。

GAN又开辟了新疆界。

去年英伟达的StyleGAN在生成高质量和视觉逼真的图像，骗过了无数双眼睛，随后一大批假脸、假猫、假房源随之兴起，可见GAN的威力。

StyleGAN生成假脸

虽然GAN在图像方面已经取得了重大进展，但是保证文本描述和视觉内容之间的语义一致性上仍然是非常具有挑战性的。

最近，来自浙江大学、悉尼大学等高校的研究人员，提出一种新颖的全局-局部注意和语义保持的文本-图像-文本(text-to-image-to-text)框架来解决这个问题，这种框架称为MirrorGAN。

MirrorGAN有多强？

在目前较为主流的数据集COCO数据集和CUB鸟类数据集上，MirrorGAN都取得了最好成绩。

目前，论文已被CVPR2019接收。

MirrorGAN：解决文本和视觉之间语义一致性

文本生成图像（T2I）在许多应用领域具有巨大的潜力，已经成为自然语言处理和计算机视觉领域的一个活跃的研究领域。

与基本图像生成问题相反，T2I生成以文本描述为条件，而不是仅从噪声开始。利用GAN的强大功能，业界已经提出了不同的T2I方法来生成视觉上逼真的和文本相关的图像。这些方法都利用鉴别器来区分生成的图像和相应的文本对以及ground-truth图像和相应的文本对。

然而，由于文本和图像之间的区域差异，当仅依赖于这样的鉴别器时，对每对内的基础语义一致性进行建模是困难且低效的。

近年来，针对这一问题，人们利用注意机制来引导生成器在生成不同的图像区域时关注不同的单词。然而，由于文本和图像模式的多样性，仅使用单词级的注意并不能确保全局语义的一致性。如图1(b)所示：

图1 (a)镜像结构的说明，体现了通过重新描述学习文本到图像生成的思想；(b)-(c)前人的研究成果与本文提出的MirrorGAN分别生成的语义不一致和一致的图像/重新描述。

T2I生成可以看作是图像标题(或图像到文本生成，I2T)的逆问题，它生成给定图像的文本描述。考虑到处理每个任务都需要对这两个领域的底层语义进行建模和对齐，因此在统一的框架中对这两个任务进行建模以利用底层的双重规则是自然和合理的。

如图1 (a)和(c)所示，如果T2I生成的图像在语义上与给定的文本描述一致，则I2T对其重新描述应该与给定的文本描述具有完全相同的语义。换句话说，生成的图像应该像一面镜子，准确地反映底层文本语义。

基于这一观察结果，论文提出了一个新的文本-图像-文本的框架——MirrorGAN来改进T2I生成，它利用了通过重新描述学习T2I生成的思想。

解剖MirrorGAN三大核心模块

对于T2I这一任务来说，主要的目标有两个：

视觉真实性；
语义

且二者需要保持一致性。

MirrorGAN利用了“文本到图像的重新描述学习生成”的思想，主要由三个模块组成：

语义文本嵌入模块(STEM)；
级联图像生成的全局-局部协同关注模块(GLAM);
语义文本再生与对齐模块(STREAM)。

STEM生成单词级和句子级的嵌入；GLAM有一个级联的架构，用于从粗尺度到细尺度生成目标图像，利用局部词注意和全局句子注意，逐步增强生成图像的多样性和语义一致性；STREAM试图从生成的图像中重新生成文本描述，该图像在语义上与给定的文本描述保持一致。

图2 MirrorGAN原理图

如图2所示，MirrorGAN通过集成T2I和I2T来体现镜像结构。

它利用了通过重新描述来学习T2I生成的想法。生成图像后，MirrorGAN会重新生成其描述，该描述将其基础语义与给定的文本描述对齐。

以下是MirrorGAN三个模块组成：STEM，GLAM和STREAM。

STEM：语义文本嵌入模块

首先，引入语义文本嵌入模块，将给定的文本描述嵌入到局部词级特征和全局句级特征中。

如图2最左边所示(即上图)，使用一个递归神经网络(RNN)从给定的文本描述中提取语义嵌入T，包括一个嵌入w的单词和一个嵌入s的句子。

GLAM：级联图像生成的全局-局部协同关注模块

接下来，通过连续叠加三个图像生成网络，构造了一个多级级联发生器。

本文采用了《Attngan: Fine-grained text to image generation with attentional generative adversarial networks》中描述的基本结构，因为它在生成逼真的图像方面有很好的性能。

使用{F₀，F₁，…，F_m-1}来表示m个视觉特征变换器，并使用{G₀，G₁，…，G_m-1}来表示m个图像生成器。每个阶段中的视觉特征F_i和生成的图像I_i可以表示为：

STREAM：语义文本再生与对齐模块

如上所述，MirrorGAN包括语义文本再生和对齐模块（STREAM），以从生成的图像重新生成文本描述，其在语义上与给定的文本描述对齐。

具体来说，采用了广泛使用的基于编码器解码器的图像标题框架作为基本的STREAM架构。

图像编码器是在ImageNet上预先训练的卷积神经网络(CNN)，解码器是RNN。由末级生成器生成的图像I_m-1输入CNN编码器和RNN解码器如下：

实验结果：COCO数据集上成绩最佳

那么，MirrorGAN的性能有多强呢？

首先来看一下MirrorGAN与其它最先进的T2I方法的比较，包括GAN-INT-CLS、GAWWN、StackGAN、StackGAN ++ 、PPGN和AttnGAN。

所采用的数据集是目前较为主流的数据集，分别是COCO数据集和CUB鸟类数据集：

CUB鸟类数据集包含8,855个训练图像和2,933个属于200个类别的测试图像，每个鸟类图像有10个文本描述；
OCO数据集包含82,783个训练图像和40,504个验证图像，每个图像有5个文本描述。

结果如表1所示：

表1 在CUB和COCO数据集上，MirrorGAN和其它先进方法的结果比较

表2展示了AttnGAN和MirrorGAN在CUB和COCO数据集上的R精度得分。

表2 在CUB和COCO数据集上，MirrorGAN和AttnGAN的R精度得分。

在所有实验比较中，MirrorGAN都表现出了更大的优势，这表明了本文提出的文本到图像到文本的框架和全局到本地的协作关注模块的优越性，因为MirrorGAN生成的高质量图像具有与输入文本描述一致的语义。

作者介绍

最后再介绍一下论文的四位作者。

Tingting Qiao（乔婷婷），浙江大学计算机学院博士研究生，目前在悉尼大学陶大程教授研究小组工作。

乔婷婷（图据LinkedIn）

Jing Zhang，博士，杭州电子科技大学讲师，悉尼大学访问学者。

Jing Zhang

许端清，浙江大学计算机与技术学院教授、博士生导师。

许端清

陶大程，悉尼大学工程及信息技术学院教授，优必选悉尼大学AI中心主任。

陶大程

目前，乔婷婷和Jing Zhang都在参与陶大程教授的工作。

值得注意的是，许端清教授曾承担国家社科基金重大项目（子课题）“敦煌遗书数据库关键技术研究及软件系统开发”，建立敦煌藏文基本信息库系统，乔婷婷也是当时的参与者之一。

两年之后的2017年，“石窟寺文物数字化保护国家文物局重点科研基地”在浙大揭牌，聚焦“石窟寺文物数字化保护“。这篇MirrorGAN的论文，在文本和图像的转换中加入了对语义的研究，使得这项任务的精度再次提高。

AI技术在文物数字化相关工作中，让古老的文字再添新生的活力，我们离历史更近，离文化更近。

论文地址：

https://arxiv.org/abs/1903.05854

新智元春季招聘开启，一起弄潮AI之巅！

岗位详情请戳：

【春招英雄贴】新智元呼召智士主笔，2019勇闯AI之巅！

【2019新智元 AI 技术峰会倒计时11天】

2019年的3月27日，新智元再汇AI之力，在北京泰富酒店举办AI开年盛典——2019新智元AI技术峰会。峰会以“智能云•芯世界“为主题，聚焦智能云和AI芯片的发展，重塑未来AI世界格局。

同时，新智元将在峰会现场权威发布若干AI白皮书，聚焦产业链的创新活跃，评述华人AI学者的影响力，助力中国在世界级的AI竞争中实现超越。

购票二维码

活动行购票链接：http://hdxu.cn/9Lb5U

点击文末“阅读原文”，马上参会！

登录查看更多

相关内容

MirrorGAN

关注 0

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

196+阅读 · 2020年5月14日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

自动化所在人脸图像老化生成算法方面实现新突破

中国科学院自动化研究所

7+阅读 · 2019年7月19日

CVPR 2019：微软最新提出ObjGAN，输入一句话秒生成图片

新智元

7+阅读 · 2019年6月23日

能生成逼真图像的不只有 GAN

机器学习算法与Python学习

8+阅读 · 2019年6月6日

业界 | GAN生成的假脸太逼真了！别怕，十招教你识别AI生成的假图像

大数据文摘

15+阅读 · 2018年12月18日

DeepMind：从52.52到166.3，图像生成再现巨大突破

论智

3+阅读 · 2018年10月3日

重磅突破：从36.8到52.52，引入自我注意力模块的SAGAN

论智

5+阅读 · 2018年5月24日

基于GAN的极限图像压缩框架

论智

12+阅读 · 2018年4月15日

最新！斯坦福联合谷歌使用图卷积和GAN从场景图中生成图像

全球人工智能

7+阅读 · 2018年4月11日

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

ST-CGAN 用GAN实现阴影检测和阴影去除

极市平台

7+阅读 · 2017年12月14日

Adversarial Representation Learning for Text-to-Image Matching

Arxiv

6+阅读 · 2019年8月28日

Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding

Arxiv

7+阅读 · 2019年2月26日

Video-to-Video Synthesis

Arxiv

9+阅读 · 2018年8月20日

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Arxiv

4+阅读 · 2018年7月12日

Learning to Sketch with Shortcut Cycle Consistency

Arxiv

5+阅读 · 2018年5月1日

Learning Cross-Modal Deep Embeddings for Multi-Object Image Retrieval using Text and Sketch

Arxiv

5+阅读 · 2018年4月28日

Zero-Shot Sketch-Image Hashing

Arxiv

5+阅读 · 2018年3月6日

Practical sketching algorithms for low-rank matrix approximation

Arxiv

4+阅读 · 2018年1月2日

MatchZoo: A Toolkit for Deep Text Matching

Arxiv

5+阅读 · 2017年7月23日

VIP会员