我跪了！OpenAI发布DALL·E 2！AI化身「现实主义画师」，有详细论文！

会员服务 ·

我跪了！OpenAI发布DALL·E 2！AI化身「现实主义画师」，有详细论文！

2022 年 4 月 8 日 CVer

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者 | Ailleurs、钱磊

转载自：AI科技评论 | 编辑：陈彩娴

大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗？

当时，DALL·E 的画风是这样的：

只要「阅读」文本，DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此，当时一经发布，DALL·E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉）方向又火了一把。

就在今天！时隔一年后，OpenAI 结合 CLIP，又发布了 DALL·E 的第二个版本——DALL·E 2.0！

相比 DALL·E 1.0，DALL·E 2.0 可以生成更真实和更准确的画像：综合文本描述中给出的概念、属性与风格等三个元素，生成「现实主义」图像与艺术作品！分辨率更是提高了4倍！

比如，当提示文本中分别包含「概念」“An astronaut ”（一个宇航员）、「属性」“riding a horse”（在骑一匹马）和「风格」“in a phtprealistic style”（超现实风格）时：

文本提示：An astronaut + riding a horse + in a phtprealistic style（一个宇航员+骑马+超现实风格）

DALL·E 2可以生成如下这些同时包含三种元素的图像：

在满足三种给定元素的基础上，它可是充分发挥了自己的「想象力」，不仅马的姿态各不相同，而且给宇航员穿上了样式各异的服装，场景也是十分丰富，草地上、山顶上、星空中......

神不神奇！牛不牛！

让我们来欣赏 DALL·2.0 的大师作品！

如果你想要变换文本中概念、属性和风格三个元素中的一个或多个，比如保留「概念」“一个宇航员”和「属性」“在骑一匹马”，而将超现实主义风格替换为波普艺术家安迪·沃霍尔的风格，DALL·E 2也可以「轻松」转换它的绘画风格：

文本提示：An astronaut + riding a horse + in the style of Andy Warhol （一个宇航员+在骑一匹马+安迪·沃霍尔的风格）

DALL·E 2生成的图像：

文本提示：An astronaut + riding a horse + as a pencil drawing（一个宇航员+在骑一匹马+铅绘风格）

DALL·E 2生成的图像：

文本提示：An astronaut + lounging in a tropical resort in space + in a vaporwave style（一个宇航员+在太空热带度假胜悠哉地躺着+蒸汽波风格）

DALL·E 2生成的图像：

文本提示：Teddy bears + mixing sparkling chemicals as mad scientists + as a 1990s Saturday morning cartoon（泰迪熊们+正在像疯狂的科学家一样混合着冒泡的化学物质+20世纪90年代的周六早间卡通片风格）

DALL·E 2生成的图像：

文本提示：Teddy bears+shopping for groceries+in the style of ukiyo-e（泰迪熊+购买杂货+浮世绘风格）

DALL·E 2生成的图像：

文本提示：Teddy bears+shopping for groceries+in ancient Egypt（泰迪熊+购买杂货+古埃及风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+that is a portal to another dimension+as digital art（一碗汤+通往另一个维度的门户+数字艺术风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as a 1960s poster（一碗汤+宇宙中的一个星球+1960年代海报风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as digital art（一碗汤+宇宙中的一个星球+数字艺术风格）

DALL·E 2生成的图像：

DALL·E 2.0 的其他功能

1、图像编辑

DALL·E 2 可以根据自然语言描述的标题对现有图像进行逼真的编辑，比如，在考虑阴影、反射和纹理的同时增加或删除图中的某个元素。示例如下：

文本描述的编辑需求：选择一个位置在图中添加火烈鸟。

原图 vs. DALL·E 2编辑后的图像：

文本描述的编辑需求：选择一个位置在图中添加柯基。

原图 vs. DALL·E 2编辑后的图像：

2、风格变体

DALL·E 2 可以拍摄一张图片，然后根据原图制作出同一个风格的不同画像。示例如下：

原图 1：

DALL·E 2 创造的同一风格图像：

原图 2：

DALL·E 2 创造的同一风格图像：

原图 3：

DALL·E 2 创造的同一风格图像：

原图 4：

DALL·E 2 创造的同一风格图像：

对于AI从文本生成的图像，我们非常看重的一点当然是图像的分辨率了，图像的分辨率越高，像素数量就越多，图像也就越清晰和逼真。与DALL·E 1相比，DALL·E 2的分辨率提高了4倍！

比如，对于同样的文本提示：

文本提示：a painting of a fox sitting in a field at sunrise in the style of Claude Monet（一只狐狸坐在日出时的田野里+克劳德·莫奈风格）

下面两张图分别是DALL·E 1 和DALL·E 2所生成图像的对比：

对比之下，DALL·E 1 生成的图像可以说是很模糊了，甚至根本看不出「日出」在哪里，「狐狸」只显露出它的头部，「田野」也不太有田野的样子，而且在整体风格上与画家莫奈的印象派风格相去甚远。

而在DALL·E 2的魔法手笔下，图像质量显著提高，「日出」和「田野」都很生动，小狐狸端坐在草地上，姿态可爱。这幅画作色彩更加丰富，使用了更多的复色，对光影的描绘更加接近莫奈的风格。

总体来说，相比 DALL·E 1.0，DALL·2 显然能 hold 住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述，而是对一个场景的整体表达，故事更完整，想象力也更丰富！

更详细的内容，可以查看 DALL·E 2 的相关研究论文：

论文地址：https://cdn.openai.com/papers/dall-e-2.pdf

收下我的膝盖……

参考链接：https://openai.com/dall-e-2/

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-Transformer或者目标检测 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer或者目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信: CVer6666，进交流群

CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

登录查看更多

相关内容

OpenAI

关注 27

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

【MM 2021】基于单张图像的多风格说话人合成，Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis

专知会员服务

5+阅读 · 2022年3月22日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

59+阅读 · 2022年3月20日

AAAI 2022接收论文列表发布，1349篇论文都在这了！

专知会员服务

144+阅读 · 2022年1月11日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

18+阅读 · 2021年9月23日