我跪了!OpenAI发布DALL·E 2!AI化身「现实主义画师」,有详细论文!

2022 年 4 月 8 日 CVer

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达


作者 | Ailleurs、钱磊

转载自:AI科技评论  | 编辑:陈彩娴

大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗?

当时,DALL·E 的画风是这样的:

只要「阅读」文本,DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此,当时一经发布,DALL·E 就火遍了 AI 圈,吸粉无数,也让 Language-Vision(文本-视觉)方向又火了一把。

就在今天!时隔一年后,OpenAI 结合 CLIP,又发布了 DALL·E 的第二个版本——DALL·E 2.0

相比 DALL·E 1.0,DALL·E 2.0 可以生成更真实和更准确的画像:综合文本描述中给出的概念、属性与风格等三个元素,生成「现实主义」图像与艺术作品!分辨率更是提高了4倍!

比如,当提示文本中分别包含「概念」“An astronaut ”(一个宇航员)、「属性」“riding a horse”(在骑一匹马)和「 风格」“in a phtprealistic style”(超现实风格)时:

文本提示:An astronaut + riding a horse + in a phtprealistic style(一个宇航员+骑马+超现实风格)

DALL·E 2可以生成如下这些同时包含三种元素的图像:

在满足三种给定元素的基础上,它可是充分发挥了自己的「想象力」,不仅马的姿态各不相同,而且给宇航员穿上了样式各异的服装,场景也是十分丰富,草地上、山顶上、星空中......

神不神奇!牛不牛!



1

让我们来欣赏 DALL·2.0 的大师作品!

如果你想要变换文本中概念、属性和风格三个元素中的一个或多个,比如保留「概念」“一个宇航员”和「属性」“在骑一匹马”,而将超现实主义风格替换为波普艺术家安迪·沃霍尔的风格,DALL·E 2也可以「轻松」转换它的绘画风格:

文本提示:An astronaut + riding a horse + in the style of Andy Warhol (一个宇航员+在骑一匹马+安迪·沃霍尔的风格)

DALL·E 2生成的图像:

文本提示:An astronaut + riding a horse + as a pencil drawing(一个宇航员+在骑一匹马+铅绘风格)

DALL·E 2生成的图像:

文本提示:An astronaut + lounging in a tropical resort in space + in a vaporwave style( 一个宇航员+在太空热带度假胜悠哉地躺着+蒸汽波风格)

DALL·E 2生成的图像:

文本提示:Teddy bears + mixing sparkling chemicals as mad scientists +  as a 1990s Saturday morning cartoon(泰迪熊们+正在像疯狂的科学家一样混合着冒泡的化学物质+20世纪90年代的周六早间卡通片风格)

DALL·E 2生成的图像:

文本提示:Teddy bears+shopping for groceries+in the style of ukiyo-e(泰迪熊+购买杂货+浮世绘风格)

DALL·E 2生成的图像:

文本提示:Teddy bears+shopping for groceries+in ancient Egypt(泰迪熊+购买杂货+古埃及风格)

DALL·E 2生成的图像:

文本提示:A bowl of soup+that is a portal to another dimension+as digital art(一碗汤+通往另一个维度的门户+数字艺术风格)

DALL·E 2生成的图像:

文本提示:A bowl of soup+as a planet in the universe+as a 1960s poster(一碗汤+宇宙中的一个星球+1960年代海报风格)

DALL·E 2生成的图像:

文本提示:A bowl of soup+as a planet in the universe+as digital art(一碗汤+宇宙中的一个星球+数字艺术风格)

DALL·E 2生成的图像:



2

DALL·E 2.0 的其他功能

1、图像编辑

DALL·E 2 可以根据自然语言描述的标题对现有图像进行逼真的编辑,比如,在考虑阴影、反射和纹理的同时增加或删除图中的某个元素。示例如下:

文本描述的编辑需求:选择一个位置在图中添加火烈鸟。

原图 vs. DALL·E 2编辑后的图像:

文本描述的编辑需求:选择一个位置在图中添加柯基。

原图 vs. DALL·E 2编辑后的图像:

2、风格变体

DALL·E 2 可以拍摄一张图片,然后根据原图制作出同一个风格的不同画像。示例如下:

原图 1:

DALL·E 2 创造的同一风格图像:

原图 2:

DALL·E 2 创造的同一风格图像:

原图 3:

DALL·E 2 创造的同一风格图像:

原图 4:

DALL·E 2 创造的同一风格图像:

对于AI从文本生成的图像,我们非常看重的一点当然是图像的分辨率了,图像的分辨率越高,像素数量就越多,图像也就越清晰和逼真。与DALL·E 1相比,DALL·E 2的分辨率提高了4倍!

比如,对于同样的文本提示:

文本提示:a painting of a fox sitting in a field at sunrise in the style of Claude Monet(一只狐狸坐在日出时的田野里+克劳德·莫奈风格)

下面两张图分别是DALL·E 1 和DALL·E 2所生成图像的对比:

对比之下,DALL·E 1 生成的图像可以说是很模糊了,甚至根本看不出「日出」在哪里,「狐狸」只显露出它的头部,「田野」也不太有田野的样子,而且在整体风格上与画家莫奈的印象派风格相去甚远。

而在DALL·E 2的魔法手笔下,图像质量显著提高,「日出」和「田野」都很生动,小狐狸端坐在草地上,姿态可爱。这幅画作色彩更加丰富,使用了更多的复色,对光影的描绘更加接近莫奈的风格。

总体来说,相比 DALL·E 1.0,DALL·2 显然能 hold 住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述,而是对一个场景的整体表达,故事更完整,想象力也更丰富!

更详细的内容,可以查看 DALL·E 2 的相关研究论文:

论文地址:https://cdn.openai.com/papers/dall-e-2.pdf

收下我的膝盖……

参考链接:https://openai.com/dall-e-2/


ICCV和CVPR 2021论文和代码下载


后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-Transformer或者目标检测 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如Transformer或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信: CVer6666,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

登录查看更多
0

相关内容

OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。
AAAI 2022接收论文列表发布,1349篇论文都在这了!
专知会员服务
144+阅读 · 2022年1月11日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
72+阅读 · 2021年1月12日
专知会员服务
64+阅读 · 2020年12月24日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
168+阅读 · 2020年2月13日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
观点丨DALL-E 2、AI研究的未来以及OpenAI的商业前景
多模态人工智能大模型“紫东太初”诞生记
中国科学院自动化研究所
2+阅读 · 2021年8月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员