DALL·E这波超进化，画质艺术感双飞升，还学会了无痕P图

会员服务 ·

DALL·E这波超进化，画质艺术感双飞升，还学会了无痕P图

2022 年 4 月 7 日 量子位

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

把椅子上的萌犬P成猫猫，需要几步？

第一步，圈出狗狗。第二步，告诉AI你的需求。鼠标一点，齐活。

这位AI P图大师，其实是位老朋友——OpenAI风靡全球的那位DALL·E。

现在，它刚刚完成了“2.0超进化”。不仅新学了一手出神入化的P图绝技，创作质量也有了飞跃式的提升。

话不多说，直接看作品感受一下~

这是DALL·E 2在“星云爆炸状柯基头”这一提示下的创作出来的画作：

这幅萨尔瓦多·达利的画像，是不是有点萨尔瓦多·达利内味儿了？

跟初代DALL·E比起来，着实是画质与艺术感双双飞升了。

△“日出时分安坐在田野里的狐狸，莫奈风格”

所以，研究人员具体如何点亮了DALL·E的新技能点？

CLIP+扩散模型

DALL·E此番进化，简单来说就是分辨率更高了，延迟更低了。

此外，还有更新2大新功能：

首先，在更细粒度上实现文本→图像功能。

也就是说，DALL·E 2可以根据自然语言提示进行P图。在P图的过程中，还会考虑阴影、反射、纹理等元素的变化。

比如在左图标“2”的位置P一个火烈鸟泳圈，DALL-E 2会把水面倒影这种细节也处理到位。

其次，是可以在保留原作核心元素的基础之上，赋予原作船新的风格。

并且生成画面的画质是DALL·E 1的4倍，即从256×256提升到了1024×1024。

具体的实现方法，用OpenAI官方的话来说，就是结合了CLIP和扩散模型两种技术的优点。

CLIP是原版DALL·E功能实现的基础，是一个负责给图像重排序的模型，其零样本学习能力已经在各种视觉和语言任务上大放异彩。

而扩散模型的特点在于，在牺牲多样性的前提下，能大大提升生成图像的逼真度。

于是，OpenAI的研究人员设计了这样一种方案：

在这个名为unCLIP的架构中，CLIP文本嵌入首先会被喂给自回归或扩散先验，以产生一个图像嵌入。

而后，这个嵌入会被用来调节扩散编码器，以生成最终的图像。

OpenAI解释称，DALL·E能够get图像和用于描述画面的文本之间的关系。其图像的生成是在“扩散”过程中完成的，可以理解为是从“一堆点”出发，用越来越多的细节去把图像填充完整。

研究人员将DALL·E 2与DALL·E、GLIDE等模型进行了对比。

实验结果显示，DALL·E 2的图像生成质量与GLIDE相当，但DALL·E的生成结果更具多样性。

目前，DALL·E 2并未对公众开放，不过如果你感兴趣，可以在线注册申请一发~

项目地址：
https://openai.com/dall-e-2/#demos

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

艺术

关注 7

艺术迄今依旧没有公认的定义，目前广义的艺术乃是由具有智能思考能力的动物，透过各种形式及工具以表达其情感与意识，因而产生的结果。艺术不只存在于人类社会中，也存在于其他相对高等的动物。

【CVPR2022】用于全身图像生成的 InsetGAN

专知会员服务

26+阅读 · 2022年3月17日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

AAAI 2022 | 在图像级弱监督语义分割这项CV难题上，字节跳动做到了性能显著提升

专知会员服务

19+阅读 · 2022年1月7日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

19+阅读 · 2021年9月23日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

【ACL2021】基于跨模态对比学习的统一模态理解与生成方法

专知会员服务

29+阅读 · 2021年8月5日

文澜：超大规模多模态预训练模型！

专知会员服务

66+阅读 · 2021年3月21日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【ICML2020-浙江大学】对抗性互信息的文本生成

专知会员服务

44+阅读 · 2020年7月4日

无痕 PS、读得懂文字，OpenAI 的二代 DALL·E 惊艳亮相！

CSDN

0+阅读 · 2022年4月14日

多模态新王登基！OpenAI发布DALL·E 2，生成图像「指哪打哪」

新智元

0+阅读 · 2022年4月10日

OpenAI发布DALL-E 2，文字生成图像工具新的“天花板”？

大数据文摘

1+阅读 · 2022年4月8日

我跪了！OpenAI发布DALL·E 2！AI化身「现实主义画师」，有详细论文！

CVer

0+阅读 · 2022年4月8日

OpenAI的DALL·E迎来升级，不止文本生成图像，还可二次创作

机器之心

1+阅读 · 2022年4月7日

DALL-E、「女娲」刷屏背后，多模态图像合成与编辑领域进展如何？

机器之心

1+阅读 · 2022年1月12日

7 Papers & Radios | OpenAI文本生成图像新模型GLIDE；培养皿中百万人脑细胞打乒乓

机器之心

0+阅读 · 2021年12月26日

缩小规模，OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

机器之心

0+阅读 · 2021年12月22日

AI也可以脑补画面了吗？

阿里技术

0+阅读 · 2021年12月5日

英伟达又一次突破想象力！一句话实时P图在线Demo可玩，「神笔马良」升级「创世纪」

量子位

0+阅读 · 2021年11月23日

苹果氮响应蛋白MdBT4与MdJAZ2互作调控花氰苷合成和果实着色的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于对偶两步模型的图像放大问题

国家自然科学基金

0+阅读 · 2014年12月31日

图像标签关联性模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

仿视觉感知机制的图像场景语义分类研究

国家自然科学基金

1+阅读 · 2013年12月31日

Web图像视觉模式挖掘及其应用

国家自然科学基金

1+阅读 · 2012年12月31日

面向人类视觉感知的高分辨率遥感图像检索研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向创作的音乐与舞蹈的关联计算模型

国家自然科学基金

0+阅读 · 2012年12月31日

符合视觉感知机理的自然纹理生成模式研究

国家自然科学基金

0+阅读 · 2012年12月31日

自动作曲技术及其质量评估方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于生物视觉机制的语义图像检索模型及方法

国家自然科学基金

0+阅读 · 2009年12月31日

Situational Perception Guided Image Matting

Arxiv

0+阅读 · 2022年4月20日

Dual-Domain Image Synthesis using Segmentation-Guided GAN

Arxiv

0+阅读 · 2022年4月19日

Nested Collaborative Learning for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2022年4月19日

"Flux+Mutability": A Conditional Generative Approach to One-Class Classification and Anomaly Detection

Arxiv

0+阅读 · 2022年4月19日

ML_LTU at SemEval-2022 Task 4: T5 Towards Identifying Patronizing and Condescending Language

Arxiv

0+阅读 · 2022年4月15日

Image Captioning In the Transformer Age

Arxiv

1+阅读 · 2022年4月15日

Counterfactual Zero-Shot and Open-Set Visual Recognition

Arxiv

12+阅读 · 2021年3月1日

Image-to-Image Translation: Methods and Applications

Arxiv

17+阅读 · 2021年1月21日

An Attentive Survey of Attention Models

Arxiv

44+阅读 · 2020年12月15日

Explainable Recommendation: A Survey and New Perspectives

Arxiv

66+阅读 · 2019年8月15日

VIP会员