利用AI进行高精度图像编辑︰EditGAN（附链接）

会员服务 ·

利用AI进行高精度图像编辑︰EditGAN（附链接）

2022 年 3 月 30 日 大数据文摘

大数据文摘转载自数据派THU

作者︰Nathan Horrocks

翻译︰Gabriel Ng

校对：张睿毅

本文为大家介绍了如何利用AI进行高精度图像编辑。

处理猫咪、汽车、甚至是古董画的照片，对于这项工作的需求，在以前从未能像现在一样容易被满足，这归功于一个生成对抗网络 (GAN) 模型，叫做EditGAN。

这项工作出自NVIDIA、多伦多大学和麻省理工学院的研究员们，部署自 DatasetGAN (一个人工智能视觉模型，训练只须用少如 16张人工注释的图像，性能虽然和其他方法一样高效，但其他方法需要100倍更多的图像。EditGAN 有先前模型提供的强大功能，并赋能用户去处理或操控想要的图像，例如绘图，所用的命令很简单，且原始图像质量不降低。

什么是EditGAN？

根据这篇论文：

https://arxiv.org/pdf/2111.03186.pdf

EditGAN 是第一个 GAN 驱动，图像编辑的框架，这个框架同时提供如下功能：

非常高精度的编辑；
仅需要非常低注释的训练数据（并且不需要外界的分类器）；
可以实时运行并互动；
允许直接组合多次编辑；
可处理实时嵌入图像、GAN生成图像、甚至超出设定范围的图像。

本模型学习一个定量的编辑向量，这个向量可以在一个图片上多次带反馈地施加。本质上，它形成了一个针对图像集和它们的内容的直观理解，这个直观理解可以被用户权衡使用，在各种特定的修改和编辑中。本模型的学习来源是相似的图像集，它能够识别不同组成部分以及图像内物体的特定部分。一个用户能利用这点，去定向修改不同分块，或者在特定区域内进行编辑。本模型的精确度使得图像不会被用户所设参数之外的因素导致失真。

Fig 1 EditGAN在工作中，模型中训练的人工智能允许用户对原始图像进行改变，有时很戏剧性

“该框架允许我们学习编辑向量时，向量的数量能随意设定，这使得之后这个编辑向量能在其他图像上用互相反馈的方式直接适配。”研究人员在他们的研究中解释道。“我们用实例展示了EditGAN 可能会以之前达不到的程度操控图像的细节和自由度，同时还能保持图像质量完整。我们还可以轻松地合并多个编辑，并做出在 EditGAN 的训练数据中没有的合理编辑操作。我们在多变的图像类型上展示了 EditGAN的优势，并量化分析了它在标准编辑里面的参考线任务中，比之前的几种编辑方法的超水平发挥程度。”

从添加各种微笑、改变某人注视的方向、创造一种新发型，到给汽车一套更好的轮子，研究员展示了究竟一个模型用最少的数据标注量可以逼出多少内在要素。用户可以绘制一个简图，或把想要编辑的部分做一一映射，引导 AI 模型理解修改任务，例如猫耳朵增大或汽车前照灯更酷。这个AI之后渲染图像，同时维持高准确性并保持原始图像的质量。之后，同样的编辑可以应用到其他实时图像上。

Fig 2 一个例子，像素分配到图像的不同部分。AI发现该不同部分并根据人工输入作出编辑

这个GAN的运作原理是？

EditGAN 给图像的每个像素赋值一个类别，例如轮胎、挡风玻璃或车架。这些像素要控制在 AI 当前的空间内，并且这些像素要基于用户输入调整，让用户有轻松，灵活地编辑这些类别的空间。EditGAN 处理仅和所需更改相关的像素。AI了解每个像素的表意是通过模型训练中的其他图像，因此你试不出来这种情况：把猫耳朵加到汽车的图像上，之后AI准确识别出结果。但是当模型正确的情况下，EditGAN 表现非常棒，提供出色的图像编辑结果。