“众所周知，视频不能P”，GAN：是吗？

会员服务 ·

“众所周知，视频不能P”，GAN：是吗？

2022 年 1 月 25 日 量子位

丰色发自凹非寺
量子位 | 公众号 QbitAI

见过用GAN来P图，见过用GANP视频吗？

瞧，原本一直在面无表情地讲话的人，全程露出了微笑；原本得4、50岁的人，直接变20几岁了：

另一边，正在微笑唱歌的“赫敏”一下子愤怒起来，还能换上一张几岁小孩的脸：

奥巴马也如此，4种版本的面部状态信手拈来，甚至连性别都给P成女的了：

不管人脸表情和状态如何变化，这些视频都没有给人任何违和感，全程如此的丝滑～

哦对，除了真人，动漫视频里的脸也可以P：

有点厉害了。

基于GAN的视频面部编辑

这个模型出自以色列特拉维夫大学。

众所周知，GAN在其潜空间内编码丰富语义的能力，已经被广泛用于人脸编辑。

不过将它用在视频中还是有点挑战性：一个是缺乏高质量数据集，一个是需要克服时间一致性 （temporal coherency）这一基本障碍。

不过研究人员认为，第二点这个障碍主要是人为的。

因为原视频本具备时间一致性，编辑后的视频却变了，部分原因就是在editing pipeline中对一些组件（component）处理不当。

而他们提出的这个视频人脸语义编辑框架，相对于当前技术水平做出了重大改进：

只采用了标准的非时序StyleGAN2，对GAN editing pipeline中的不同组件进行分析，确定哪些组件具备一致性，就用这些组件来操作。

整个过程不涉及任何用来维持时间一致性的额外操作。

具体流程一共分为六步：

1、输入视频首先被分割成帧，每帧中的人脸都被裁剪下来并对齐；

2、使用预训练的e4e编码器，将每张已裁剪的人脸反演到预训练的StyleGAN2的潜空间中；

3、在所有并行帧中使用PTI（最新提出的一种视频人脸编辑方法）对生成器进行微调，纠正初始反演中的错误，恢复全局一致性；

4、所有帧通过使用固定的方向和步长，线性地操纵其轴心潜码（pivot latent codes）进行相应编辑；

5、再次微调生成器，将背景和编辑过的人脸“缝合”在一起；

6、反转对齐步骤，并将修改后的人脸粘贴回视频中。

△ 注意颈部曾产生了大量瑕疵，在最后一步完全修复好

和SOTA模型对比

这个模型效果到底有多好，来个对比就知道：

第一个是变年轻、第二、三个都是变老。

可以明显看到目前的SOTA模型（Latent Transformer）和PTI模型中的人脸会“抽巴”，并出现一些伪影，而这个新模型就避开了这些问题。

此外，研究人员还进行了时间一致性测试。

指标包含两个：

局部时间一致性（TL-ID），通过现成的一致性检测网络来评估相邻两帧之间的一致性。TL-ID分数越高，表明该方法产生的效果越平滑，没有明显的局部抖动。
全局时间一致性（TG-ID），同样使用一致性检测网络来评估所有可能的帧（不一定相邻）之间的相似性。得分为1表示该方法成功保持了和原视频的时间一致性。

结果如下：

可以看到，这个新模型在两项指标中都略胜一筹。

最后，代码将于2月14号发布，感兴趣的朋友可以蹲一蹲了～

论文地址：
https://arxiv.org/abs/2201.08361

项目主页：

https://stitch-time.github.io/

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

GAN

关注 0

GAN：生成性对抗网，深度学习模型的一种，在神经网络模型中引入竞争机制，非常流行。

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

【AAAI2021】预训练语言模型最新进展，附113页ppt和视频

专知会员服务

65+阅读 · 2021年2月23日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

生成式对抗网络先验贝叶斯推断，Bayesian Inference with Generative Adversarial Network Priors

专知会员服务

28+阅读 · 2020年2月18日

CVPR 2022 | Adobe把GAN搞成了缝合怪！凭空P出一张1024分辨率全身人像

CVer

0+阅读 · 2022年3月27日

Adobe把GAN搞成了缝合怪，凭空P出一张1024分辨率全身人像 | CVPR 2022

量子位

1+阅读 · 2022年3月22日

英伟达把P图软件GAN了

量子位

0+阅读 · 2021年12月5日

用GAN也可以P图，效果还不输PS | 英伟达出品

量子位

0+阅读 · 2021年11月12日

【GAN】生成对抗网络(GAN)的发展史

产业智能官

16+阅读 · 2020年3月20日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用视频压缩特性的隐写关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于时空特征融合的紧凑性视频指纹技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于时空关联的自适应视频克隆与修补技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频编码中视觉质量一致性评价及其控制算法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Unsupervised Learning of Efficient Geometry-Aware Neural Articulated Representations

Arxiv

0+阅读 · 2022年4月19日

Sketch guided and progressive growing GAN for realistic and editable ultrasound image synthesis

Arxiv

0+阅读 · 2022年4月19日

"Flux+Mutability": A Conditional Generative Approach to One-Class Classification and Anomaly Detection

Arxiv

0+阅读 · 2022年4月19日

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

VIP会员