【CVPR2018论文笔记】非监督任意姿势人体图像合成- 专知

【CVPR2018论文笔记】非监督任意姿势人体图像合成

【导读】在CVPR2018有很多优秀的文章，这篇文章目的在于以非监督的方式利用一张人体图像合成任意姿势的同一个人的新图片。

【CVPR 2018 论文】

Unsupervised Person Image Synthesis in Arbitrary Poses

摘要

我们提出了用生成对抗网络合成人在任意姿势的真实图像。输入一个人的图像并给定一个用2D骨架表示的姿势，我们的模型能够合成同一个人的一张新图片，这张图片基于给定的姿势并且能够从新的角度看原来的图片中可见的部分，也能合成原来图片不可见的部分。这个问题已经可以用监督学习解决：在训练过程中给出新的姿势及对应的真实图片。我们用一种完全非监督方法去解决这个问题。我们将这个挑战分为两个子任务：1. 我们考虑一个姿势条件双向生成器去将最开始生成的图像映射到原来的姿势，这样可以和输入的图像进行比较。2. 我们设计一个损失函数，将内容和风格一起考虑进来，这样可以产生高质量图像。在DeepFashion数据集上的实验表明我们模型生成的图像能够和监督学习生成的图像得到一样好的结果。

图1

简介

从一张图像去生成一个人在任意姿势的图像有着很多激动人心的应用，包括时尚界和商业界、摄影学的自动编辑和动画制作。完成这个任务需要估计人体的三维几何模型、头发、衣服，还要知道可见部分的反射模型和预测被阻挡的部分，如果没有做这些工作，那将是很难完成的任务。然而，GAN已经在生成真实图像取得了很成功的效果。最近，GAN也被应用在从单视角图像得到人的多视角图像的问题，其产生效果很好，但受到必须为全监督方式的限制，也就是说训练过程需要给出同一个人穿着相同的衣服以不同姿势的照片。这就需要特定的数据集，特别是在时尚领域的数据集。如果将这个问题以非监督方式解决，那么在训练过程中我们可以利用很多图片，并且还可以用那些没有多角度人照片的数据集。

在本文中，我们提出了一个非监督的GAN框架，给定一个人的图片，自动生成一个人不同照相机视角或者不同姿势的图片。这个生成模型能够合成原始图像的可见部分，也能预测原始图像的不可见部分。如图1所示，生成图片有着和输入图片完全不一样的姿势，但其身体形状和纹理与原图片一模一样。为了去利用没有标签的数据（例如，训练数据包括一个人的单张图片加上需要的姿势），我们提出了一个GAN框架，这个框架包括姿势条件对抗网络，Cycle-GANs和针对图像迁移的损失函数。

更具体的，为了避免同一个人在不同的姿势需要不同的图片的问题，我们将问题分为两个阶段：1. 我们考虑了一个姿势条件双向对抗框架，这个框架给定一张训练图片，在给定姿势下生成新的图片，然后利用这个新的图片反过来转化到原来的姿势，进而可以和输入图片进行比较。2. 为了得到高质量图片，我们设计新的损失函数涉及到三种图片：1.原来的图片；2根据给定的姿势生成新的图片；3. 反过来转化到原来的姿势——为了并入内容项和风格项。这个函数以姿势参数为条件并且让生成的图像能够维持和原来的图片一样的内容和风格。

在DeepFashion数据集上的实验得到了非常好的结果，生成的图片和以监督学习得到的图片一样好。

问题描述

给定一个人的单视角图片，我们目标是以非监督方法训练一个GAN模型。我们学习映射在姿势Po的图片和给定姿势Pf的图片之间。姿势用2D骨架：N=18并且P=(u1,…,uN) 表示，其中表示第i个像素的位置。模型用非监督学习方式训练，训练样本为并且没有对应的真实输出图片。

方法

图2表示模型的全框架，这个模型由四个主要部分组成：1.生成器G(I|P)将一个人一个姿势的图片映射到另一个姿势的图片。注意G用了两次，先再。2.回归量估计给定图片的2D关节坐标。3.辨别器辨别其是生成的图片还是真实图片。4. 损失函数，为了维持人的特征。为了这个目的，我们提出新的损失函数维持和内容相似度以及风格相似度。