从姿势到图像——基于人体姿势引导的时尚图像生成算法

7 月 4 日 将门创投

From:arxiv  编译:T.R


时尚总在引领潮流。


在人工智能、增强现实、可穿戴、虚拟试妆等技术的加持下,时尚行业特别是在线时尚行业获得了飞速的发展。为了吸引客户更多的目光、更棒的视觉体验、更好地展现商品,高清大图、模特多角度摆拍已经成了服装、箱包、鞋类、美妆等线上商家的宣传标配。在网上购物时,大家都想看看模特衣服在各种角度姿势下的样子,但是越多越全面的姿势摆拍也就意味着越大的投入。为了降低宣传成本,很多研究开始聚焦于如何合成高质量的逼真图像。


在这篇文章中来自北卡罗来纳大学、JD和OPPO的研究人员们提出了一种姿势引导的时尚图像生成模型,可以基于模特当前姿势,生成出其他各种不同姿势下的相同着装的新图像!也许在这样技术的帮助下,模特再也不用辛苦一分钟拍二十个动作了~



生成新姿势下的时尚图像


研究人员的主要目的在于训练一个生成模型,将模特在当前姿势上的图像迁移到其他的目标姿势上去,实现对于衣着等商品的全面展示。



这一模型主要由生成器和判别器构成,与先前工作不同的是这一模型架构中包含了两个不同的判别器!其中生成器由两个编码器构成,分别用于从图像和对应的动作关键点特征图进行编码,而解码器则用于从动作和衣着的特征中合成目标图像。对于判别器来说,除了判定生成图像是否逼真外、还需要判定动作与生成图像的连续性以保证生成图像动作的连续性和鲁棒性。



模型的主要架构,生成器的编码器包含了对于图像的编码器Ei和对动作的编码器Ep,基于U-Net和bi-LSTM共同构建而成,而两个判别器分别用于判定图像的真伪并保证生成图像与动作间的连续性。


时尚图像生成器


生成器中主要包含了两个编码器和一个解码器用于处理图像和对应姿势,生成器探索了输入图像的视觉语义特征和位姿信息,并生成对应姿势下的新图像。

图像编码器:图像编码器的目标是从单张或多张图像中湖区语义编码信息。研究人员首先使用了ResNet作为主干网络抽取不同尺度的特征,包括纹理、颜色、边缘线条信息等。随后将这些特征输入到双边长短时记忆网络(bc-LSTM)中用于从相同衣着不同视角的模特图像中抽取共同的特征,将不同种类的图像特征进行转换,同时对不同特征下的背景和噪声进行处理。最终得到了可以表达图像视觉语义信息的编码Ci,用于后续图像的生成。

位姿编码器:模型同时需要位姿数据来为生成图像进行引导,研究人员利用了18个关键点来表示人体位姿,用不同颜色的直线相连并以RGB的格式进行表示。通过U-Net的架构和3*3的卷积从位姿图中抽取高层次语义特征Cp并在解码过程中通过跳接层连接进行特征共享。

解码器:其主要目的是通过图像编码Ci 和动作编码Cp重建出逼真的图像。首先将图像编码与位姿编码的编码拼接在一起,并基于U-Net架构和跳接层将视觉语义信息与动作编码信息匹配起来,进行有效的图像生成。

判别器:其主要目标是引导模型生成比先前模型更逼真图像。在训练过程中研究人员利用两个判别器来同时进行对抗训练,主要采用了与PatchGAN类似的实现。其中Di用于判别生成图像是否逼真,与先前的模型类似;而Dp则用于判定生成图像与对应动作的连续性。Dp的输出是真实图像与对应位姿和这一位姿下生成的图像,用于判定图像是否与位姿匹配,它对于生成与位姿对应的时尚图像具有重要的作用,能帮助网络生成更为复杂的动作姿势,同时保持连续性和鲁棒性。

结果展示


通过DeepFashion和Market-1501数据的训练后研究人员得到了不错的结果。


Deep Fasion 数据集


Market-1501数据集


生成的结果与先前方法的比较,其中S和M代表了单张和多张图像输入的生成结果:



在数据集上的表现还不错,从源图像生成了新的姿势:



如果想要了解更多细节,请参考论文:

https://arxiv.org/pdf/1906.07251.pdf


ref:
paper:https://arxiv.org/pdf/1906.07251.pdf
dataset:
https://github.com/duxiaofei283/Market-1501_Attribute
http://www.liangzheng.org/Project/project_reid.html
https://arxiv.org/pdf/1611.05666.pdf
https://www.microsoft.com/en-us/research/wp-content/uploads/2017/01/ICCV15-ReIDDataset.pdf
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
authors:
KDD Workshop on AI for fashion
https://intra.ece.ucr.edu/~mbappy/
https://www.kdd.org/kdd2019/
http://www.wikicfp.com/cfp/home
logo image from : street style duck and hat
https://dribbble.com/search?q=fashion
https://dribbble.com/search?q=pose

https://dribbble.com/shots/6148999-Ohlin-b%20%20

https://dribbble.com/shots/5417126-Macy-s-Fall-Fashion-2018

https://dribbble.com/shots/6191580-Shopping-Product-Page-UI/attachments



-The End-



将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。


将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。


将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。


将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在三年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。


如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: [email protected]

    

点击右上角,把文章分享到朋友圈
 

将门创投

让创新获得认可!

微信:thejiangmen

[email protected]


点击“❀在看”,让更多朋友们看到吧~

登录查看更多
点赞 0
Top