《基于图像的虚拟试穿》综述

基于图像的虚拟试穿旨在合成一张穿着自然的人物图像和服装图像，这不仅彻底改变了在线购物体验，也激发了图像生成领域内相关话题的探索，显示了其研究意义和商业潜力。然而，当前研究进展与商业应用之间存在较大差距，这一领域缺乏全面的概述以加速其发展。在这篇综述中，我们对最先进的技术和方法论进行了全面分析，涵盖了流程架构、人物表示以及关键模块，如试穿指示、服装变形和试穿阶段。我们提出了一种新的语义标准，并使用CLIP评估了代表性方法，这些方法均应用了统一实施的评估标准，并在相同的数据集上进行评估。除了对当前开源方法进行量化和质化评估外，我们还利用ControlNet微调了最近的大型图像生成模型（PBE），展示了大规模模型在基于图像的虚拟试穿任务上的未来潜力。最后，我们揭示了尚未解决的问题，并展望了未来的研究方向，以识别关键趋势并激发进一步探索。统一实施的评估标准、数据集和收集的方法将在 https://github.com/little-misfit/Survey-Of-Virtual-Try-On 上公开。

1 引言

基于图像的虚拟试穿是人工智能生成内容（AIGC）领域中的一个热门研究话题，特别是在条件性人物图像生成领域。它使得编辑、更换和设计服装图像内容成为可能，因此在电子商务平台和短视频平台等多个领域具有极高的应用价值。特别是在线购物者可以通过虚拟试穿获取服装的试穿效果图像，从而增强他们的购物体验并提高成功交易的可能性。此外，AI时尚也在短视频平台上出现，用户可以根据自己的创意编辑图像或视频中角色穿着的衣服。这使得用户可以探索他们的时尚感并制作出一系列迷人的图像和视频。 虚拟试穿的概念最早在2001年提出，使用预先计算的通用数据库来生成个人尺寸的身体并在网络应用上动态展示服装。虚拟试穿方法可以分为三类：基于物理的模拟、真实采集和图像生成。以布料模拟技术为核心部分的物理基础试穿模拟还涉及人体重建和布料测量。这类方法在姿势可控和360度展示方面有优势，但在准确性、效率和自动化方面面临诸多困难。一些品牌，例如优衣库和GAP，采用这种方式作为虚拟试穿解决方案。真实采集方法通常捕捉并存储服装在形状可控机器人上的外观，用于后续展示，展示出高保真度。只有少数公司，如Fits.me，采用了这种方法，这需要大量的实际采集劳动。随着图像生成技术的发展，基于图像的虚拟试穿因其高效率和低成本而变得吸引人。然而，生成图像中的人工痕迹阻碍了其在实际场景中的应用。具体来说，本文聚焦于基于图像的虚拟试穿方法，对方法设计和实验评估进行了全面回顾，并进一步揭示了未解决的问题和未来研究方向的展望。

基于图像的虚拟试穿可以被看作是一种条件性人物图像生成，自2017年以来经历了快速发展（见图1）。给定一张穿着服装的人物图像和一张店内服装图像，基于图像的虚拟试穿旨在合成一张自然穿着的身体图像。要完成这项任务，需要克服三个主要难点：1）获取高质量的监督训练数据：几乎不可能获得同一人在相同姿势下试穿两件不同服装的照片配对。2）实现服装在人体适当区域的自然和真实的弯曲和阴影效果：确保服装自然无缝地适应身体轮廓并在光线和阴影方面看起来真实是一项挑战。3）生成真实的试穿图像：需要在非服装区域（如移除新服装未覆盖的原始服装残留）保持一致性，同时保持人物身份的清晰。为了克服上述困难，已经做出了巨大努力，图1展示了一些代表性方法的时间线。2017年，CAGAN [19]首次尝试使用CycleGAN [20]来克服训练三元组数据（原始人物图像、店内服装图像、试穿图像）缺乏的问题，但生成质量远未达到满意。随后，VITON [21]创造性地提出了人体解析的服装不可知人物表示，以弥补监督训练数据的不足。他们构建了“试穿指示 + 衣物变形 + 试穿”的基本网络框架，为后续作品中进一步提高生成质量奠定了基础 [22]–[31]。除了持续的质量改进，一些新的目标也受到关注。2019年，多件服装的试穿引起了注意 [32]，但由于多件服装之间复杂的相互作用和缺乏专门的数据集，此类工作较少 [33]–[35]。为了摆脱对人体解析的过度依赖，设计了几个师生网络 [36]–[38]，以实现在推理时无解析器的试穿。最近，随着计算能力的提升，高分辨率虚拟试穿任务变得可能，例如VITON-HD [39] 和 HR-VTON [31]。受到图像生成领域StyleGAN [40]–[43] 和 Diffusion模型 [44]–[47] 的启发，出现了单阶段网络 [48]、[49] 以及Diffusion架构 [50]。

尽管新兴工作层出不穷，但缺乏系统性的综述来总结基于图像的虚拟试穿方法在数据集、方法设计和实验评估方面。之前的两篇综述 [51]、[52] 仅介绍了几种代表性方法，但没有进行全面的比较和统一评估。据我们所知，这是第一次系统性的基于图像的虚拟试穿综述，具有统一评估，并且还具有以下独特特点：

• 深入分析。我们从流程结构、人物表现、服装变形策略、试穿指示和图像合成的架构以及相应的损失函数等多个角度，全面回顾了现有的基于图像的虚拟试穿方法。

• 评估：统一评估、新标准和用户研究。我们使用相同的数据集评估开源作品，并且还对视觉结果进行了333名志愿者的用户研究。特别地，我们计算了CLIP [53] 的语义分数作为一种新标准，可以分别评估试穿和非试穿部分的语义相似性。相关数据和代码将在 https://github.com/little-misfit/Survey-OfVirtual-Try-On 公开。

• 开放挑战和未来方向。根据实验结果，我们揭示了一系列未解决的问题，并提出了重要的未来研究方向。此外，我们利用ControlNet [54] 微调了最近的大型模型（PBE [55]）用于基于图像的虚拟试穿，展示了流行的大型模型在这一任务上的潜力和问题。我们希望这篇综述能激发新颖的想法，并加速基于图像的虚拟试穿及其在工业中的应用发展。

本综述的其余部分安排如下。第2节首先给出问题定义，然后从多个角度全面回顾文献。第3节介绍数据集和评估标准。实验结果和分析在第4节呈现。然后我们在第5节揭示未解决的问题，并在第6节展望未来方向。最后，第7节总结本文。

基于图像的虚拟试穿可以被视为一种条件性图像生成任务，它使用店内服装图像Ic和人物图像Ip作为原始数据，并预处理原始数据作为条件信息，以指导模型生成试穿图像 Itry-on = G(Ip, Ic)。在基于图像的虚拟试穿中通常涉及三个关键模块： • 试穿指示旨在为服装变形模块中的服装变形和试穿模块中服装与身体的融合提供先验。它通常采用人体表示的组合（例如，语义信息 [56]、[57]，Densepose [58]，Openpose [59]、[60] 等）作为输入，并预测试穿状态下人体的空间结构。 •** 衣物变形将服装图像转换为试穿状态下的空间分布**。该模块的输入包括服装图像和人体特征，如试穿指示模块中获得的服装不可知人物表达或穿着服装的人物表达。通过像TPS [61]、STN [62] 和 FlowNet [63] 这样的变形方法，变换像素/特征点的空间位置，该模块的输出可以是变形的服装图像或变形的服装特征。 • 试穿模块通过融合人体和服装特征来生成最终的试穿图像。该模块设计了插值或生成网络，输出图像应满足以下要求：1）试穿区域内的服装应清晰自然，2）试穿区域外的内容（不包括计划脱下的原始服装）应保持不变，3）新服装与人体之间应有正确的语义关系。

值得注意的是，上述三个步骤不一定同时存在，也没有严格的顺序。表1总结了代表性方法，我们将在以下小节中讨论关键设计。在虚拟试穿流程中，上述三个模块的选择和放置对最终试穿结果有重要影响。如图2所示，基本的流程结构可以分为七种类型。类型I和II是单阶段流程，后者额外引入了特征对齐。类型III和IV是两阶段流程，分别利用人物表达和变形服装作为中间生成进行进一步优化。其余类型是三阶段流程，其中类型V和VI在试穿指示和衣物变形模块的顺序上有所不同，而类型VII同时优化这两个模块。代表性方法的流程选择可以在表1中找到，发展趋势上没有明显偏好。

作为基本试穿图像生成流程的补充，图3展示了其他结构，如师生网络 [36]–[38] 和 Cycle-GAN [20]、[77]。师生架构主要用于训练无解析器试穿网络，图3a展示了直接实现 [36]。PFAFN和Style-Flow-VTON [37]、[38] 进一步将其改进为图3b，其中由教师网络生成的合成图像 Itry-on 用作学生网络的输入。与类型1相比，类型2在教师网络生成不良结果的情况下提供了更可靠的监督。同样地，采用 Cycle-GAN [20]、[77]（图3c）也显示了使用循环一致性来增强试穿监督的策略。

结论

在这篇综述中，我们提供了基于图像的虚拟试穿当前研究状态的全面概览。代表性方法在流程、人物表达、试穿指示、衣物变形、试穿阶段及相应损失等方面的特点进行了比较和分析。我们使用了一个通用数据集，并在相同的评估标准（包括一种新提出的标准）下评估了现有的开源作品，以分析现有设计。此外，揭示了未解决的问题，并指出了未来的工作方向。通过综合现有文献，识别关键趋势，并突出未来研究的领域，我们希望激发基于图像的虚拟试穿的进一步发展。

成为VIP会员查看完整内容