ECCV 2022 | 基于双路图补全的物体放置

2022 年 8 月 29 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 牛力

单位 | 上海交通大学副教授

研究方向 | 计算机视觉

任务介绍

图像合成（image composition）是指把一张图片的前景剪切下来，粘贴到另外一张背景图片上得到一张合成图（composite image）。然而，通过简单的剪切粘贴得到的合成图存在诸多问题，比如前景和背景之间过渡不自然，前景和背景的光照不一致，前景在背景上没有阴影，前景的位置大小不合理等等。这些问题都会影响合成图的真实性，降低合成图的质量。

之前的工作一般都会聚焦于图像合成中的某些问题，比如图像和谐化（image harmonization）旨在解决前景和背景光照不一致的问题，阴影生成（shadow generation）旨在解决前景阴影缺失的问题。我们聚焦于前景物体的位置大小问题，也称物体放置（object placement）任务。

物体放置模型可以分为生成式和判别式两种。生成式模型基于一对前景和背景，生成一个或者多个合理的前景物体放置。判别式模型则基于一对前景和背景，判断某个放置是否合理。生成式模型和判别式模型是相辅相成的关系。判别式模型如果遍历所有放置的合理性，可以获取合理的放置。

生成式模型得到的结果亦可通过判别式模型验证其合理性，过滤掉不合理的放置。本工作侧重于物体放置的生成式模型，如下图所示，给定一对前景和背景，通过生成模型预测合理的放置，然后把前景物体放置在背景图片上得到合成图。

针对物体放置任务，我们提出了基于双路（dual-path）图补全（graph completion）的生成模型，将模型命名为 Graph Completion Network （GracoNet），文章已被 ECCV 2022 接收，代码和模型已经开源：

论文标题：

Learning Object Placement via Dual-path Graph Completion

论文链接：

https://arxiv.org/pdf/2207.11464.pdf

代码链接：

https://github.com/bcmi/GracoNet-Object-Placement

方法介绍

据我们所知，专注于物体放置任务的方法很少。之前方法通常分别提取前景特征和背景特征，把前景特征和背景特征拼接用于预测放置。在此过程中可以添加随机向量，通过采样多个随机向量，产生多个合理的放置。并且，由于物体放置数据集的缺失，之前方法一般采用对抗学习的方式使得生成的合成图和真实图片接近。但是，这些方法生成结果的合理性和多样性十分有限。

随着 Object Placement Assessment（OPA）数据集的公布，我们可以充分利用大量标注的正负合成图，提供更加有效的监督。OPA 数据集是我们实验室构建的首个公开的物体放置数据集，提供了大量合成图及其前景物体放置合理性二值标签，覆盖 47 个前景种类，共计 73,470 张合成图。正合成图中前景物体的放置合理，而负合成图中前景物体的放置不合理。我们也提供了构成合成图的前景物体和背景图片。我们已经开源了 OPA 数据集：

https://github.com/bcmi/Object-Placement-Assessment-Dataset-OPA

我们把物体放置任务定义成图补全（graph completion）的问题，首先把背景按照不同尺度进行切块，把不同的背景块当作图中不同的节点，每个节点有内容信息和位置大小信息。另外，前景物体也可以当作图中的一个节点，但这个节点只有内容信息，没有位置大小信息，相当于图中缺失了前景物体的位置大小信息。因此，我们需要利用已有节点的信息，预测出前景物体的位置大小信息，补全整个图的信息，因此称为图补全问题，如下图所示。

根据图补全问题的定义，我们设计了 Graph Completion Module（GCM）模块，分别提取前景特征向量和背景特征图。在背景特征图上进行多尺度切块，每一块特征图对应一个背景节点，背景节点的内容信息由该块特征图得到，位置大小信息由可学习的位置大小编码表示。

我们利用 Transformer 结构实现前景节点特征和背景节点特征之间的交互。具体来说，我们把前景节点特征（只有内容信息）作为 query，背景节点特征（包括内容信息和位置大小信息）作为 key 和 value，经过 Transformer 结构得到交互后的特征向量。

为了生成多个合理的放置，我们把交互后的特征向量和一个服从单位高斯分布的随机向量拼起来，用于预测合理的放置。通过采样多个随机向量可以得到多个合理的放置。这个过程相当于利用背景节点的内容信息和放置信息以及前景节点的内容信息，预测前景节点的放置信息，补全了前景节点缺失的信息。

基于预测的放置，我们将前景物体放置在背景图片上得到合成图。基于对抗学习的框架，我们用判别器区分一张合成图前景物体的放置是否合理。我们利用 OPA 数据集提供的正负合成图以及生成的合成图训练判别器，然后迫使 GCM 生成更加合理的放置，能够迷惑判别器。

而且，为了充分利用 OPA 数据集中的正合成图，我们围绕 GCM 模块构建了双路结构。一路分支从单位高斯分布采样随机向量，得到合成图，用上述介绍的对抗损失保证合成图的合理性。另外一路分支把正合成图通过 VAE 编码器得到一个随机向量，并通过 KL 损失使得随机向量的分布与单位高斯分布接近。

该随机向量和交互后的特征向量拼起来预测放置，然后让得到的合成图与输入 VAE 编码器的正合成图接近。这一路分支建立了正合成图和随机向量之间的双向映射，进一步保证了生成合成图的合理性和多样性。我们整体的网络结构如下图所示。

在测试阶段，给定一对前景和背景，我们可以从单位高斯分布采样随机向量，和交互后的特征向量拼接，预测多个合理的放置。具体的技术细节请参照论文。

实验结果

我们在 OPA 数据集上做实验，和已有的物体放置生成式方法 TERSE 和 PlaceNet 比较，采用了四项评测指标。

第一项指标是计算生成的合成图和 OPA 数据集中正合成图的 FID，度量生成合成图和正合成图的接近程度。第二项指标用区分正负合成图的分类器对生成的合成图做分类，输出判断为正样本的比例。第三项指标是用户调研（user study），让用户从不同方法的结果里选最优的结果，统计每个方法被选中的概率。第四项指标是为一对前景和背景生成十张合成图，计算它们两两之间的 LPIPS 距离，用于度量生成合成图的多样性。四项指标的结果见下表，可见我们方法在各项指标上显著优于之前方法。

另外，我们对不同方法生成的合成图进行可视化，结果如下图所示。我们的 GracoNet 在生成结果的合理性上优于之前的方法。

并且，我们比较了 GracoNet 和 PlaceNet 生成结果的多样性。下面是给定一对前景和背景，通过多次采样随机向量得到的多个结果。可以看出我们的方法能够生成合理多样的结果。

更多的可视化结果参见论文。我们也对方法的各个模块和超参数进行了详尽的分析，具体参见论文。

总结

我们把物体放置任务转换成图补全任务，并设计双路结构提升生成结果的多样性和合理性。OPA 数据集上的实验结果证明我们的方法显著优于之前的方法。我们方法的代码和模型已开源，并且是首个开源的物体放置算法。物体放置任务作为图像合成中不可或缺的一环，意义重大但工作甚少，欢迎关注物体放置任务，关注我们的 OPA 数据集和开源算法。

更多阅读