ECCV 2022 | 基于双路图补全的物体放置

2022 年 8 月 29 日 PaperWeekly



©PaperWeekly 原创 · 作者 | 牛力

单位 | 上海交通大学副教授

研究方向 | 计算机视觉




任务介绍


图像合成(image composition)是指把一张图片的前景剪切下来,粘贴到另外一张背景图片上得到一张合成图(composite image)。然而,通过简单的剪切粘贴得到的合成图存在诸多问题,比如前景和背景之间过渡不自然,前景和背景的光照不一致,前景在背景上没有阴影,前景的位置大小不合理等等。这些问题都会影响合成图的真实性,降低合成图的质量。


之前的工作一般都会聚焦于图像合成中的某些问题,比如图像和谐化(image harmonization)旨在解决前景和背景光照不一致的问题,阴影生成(shadow generation)旨在解决前景阴影缺失的问题。我们聚焦于前景物体的位置大小问题,也称物体放置(object placement)任务。


物体放置模型可以分为生成式和判别式两种。生成式模型基于一对前景和背景,生成一个或者多个合理的前景物体放置。判别式模型则基于一对前景和背景,判断某个放置是否合理。生成式模型和判别式模型是相辅相成的关系。判别式模型如果遍历所有放置的合理性,可以获取合理的放置。


生成式模型得到的结果亦可通过判别式模型验证其合理性,过滤掉不合理的放置。本工作侧重于物体放置的生成式模型,如下图所示,给定一对前景和背景,通过生成模型预测合理的放置,然后把前景物体放置在背景图片上得到合成图。



针对物体放置任务,我们提出了基于双路(dual-path)图补全(graph completion)的生成模型,将模型命名为 Graph Completion Network (GracoNet),文章已被 ECCV 2022 接收,代码和模型已经开源:



论文标题:
Learning Object Placement via Dual-path Graph Completion

论文链接:

https://arxiv.org/pdf/2207.11464.pdf

代码链接:

https://github.com/bcmi/GracoNet-Object-Placement



方法介绍


据我们所知,专注于物体放置任务的方法很少。之前方法通常分别提取前景特征和背景特征,把前景特征和背景特征拼接用于预测放置。在此过程中可以添加随机向量,通过采样多个随机向量,产生多个合理的放置。并且,由于物体放置数据集的缺失,之前方法一般采用对抗学习的方式使得生成的合成图和真实图片接近。但是,这些方法生成结果的合理性和多样性十分有限。


随着 Object Placement Assessment(OPA)数据集的公布,我们可以充分利用大量标注的正负合成图,提供更加有效的监督。OPA 数据集是我们实验室构建的首个公开的物体放置数据集,提供了大量合成图及其前景物体放置合理性二值标签,覆盖 47 个前景种类,共计 73,470 张合成图。正合成图中前景物体的放置合理,而负合成图中前景物体的放置不合理。我们也提供了构成合成图的前景物体和背景图片。我们已经开源了 OPA 数据集:

https://github.com/bcmi/Object-Placement-Assessment-Dataset-OPA


我们把物体放置任务定义成图补全(graph completion)的问题,首先把背景按照不同尺度进行切块,把不同的背景块当作图中不同的节点,每个节点有内容信息和位置大小信息。另外,前景物体也可以当作图中的一个节点,但这个节点只有内容信息,没有位置大小信息,相当于图中缺失了前景物体的位置大小信息。因此,我们需要利用已有节点的信息,预测出前景物体的位置大小信息,补全整个图的信息,因此称为图补全问题,如下图所示。



根据图补全问题的定义,我们设计了 Graph Completion Module(GCM)模块,分别提取前景特征向量和背景特征图。在背景特征图上进行多尺度切块,每一块特征图对应一个背景节点,背景节点的内容信息由该块特征图得到,位置大小信息由可学习的位置大小编码表示。


我们利用 Transformer 结构实现前景节点特征和背景节点特征之间的交互。具体来说,我们把前景节点特征(只有内容信息)作为 query,背景节点特征(包括内容信息和位置大小信息)作为 key 和 value,经过 Transformer 结构得到交互后的特征向量。


为了生成多个合理的放置,我们把交互后的特征向量和一个服从单位高斯分布的随机向量拼起来,用于预测合理的放置。通过采样多个随机向量可以得到多个合理的放置。这个过程相当于利用背景节点的内容信息和放置信息以及前景节点的内容信息,预测前景节点的放置信息,补全了前景节点缺失的信息。


基于预测的放置,我们将前景物体放置在背景图片上得到合成图。基于对抗学习的框架,我们用判别器区分一张合成图前景物体的放置是否合理。我们利用 OPA 数据集提供的正负合成图以及生成的合成图训练判别器,然后迫使 GCM 生成更加合理的放置,能够迷惑判别器。


而且,为了充分利用 OPA 数据集中的正合成图,我们围绕 GCM 模块构建了双路结构。一路分支从单位高斯分布采样随机向量,得到合成图,用上述介绍的对抗损失保证合成图的合理性。另外一路分支把正合成图通过 VAE 编码器得到一个随机向量,并通过 KL 损失使得随机向量的分布与单位高斯分布接近。


该随机向量和交互后的特征向量拼起来预测放置,然后让得到的合成图与输入 VAE 编码器的正合成图接近。这一路分支建立了正合成图和随机向量之间的双向映射,进一步保证了生成合成图的合理性和多样性。我们整体的网络结构如下图所示。



在测试阶段,给定一对前景和背景,我们可以从单位高斯分布采样随机向量,和交互后的特征向量拼接,预测多个合理的放置。具体的技术细节请参照论文。




实验结果


我们在 OPA 数据集上做实验,和已有的物体放置生成式方法 TERSE 和 PlaceNet 比较,采用了四项评测指标。


第一项指标是计算生成的合成图和 OPA 数据集中正合成图的 FID,度量生成合成图和正合成图的接近程度。第二项指标用区分正负合成图的分类器对生成的合成图做分类,输出判断为正样本的比例。第三项指标是用户调研(user study),让用户从不同方法的结果里选最优的结果,统计每个方法被选中的概率。第四项指标是为一对前景和背景生成十张合成图,计算它们两两之间的 LPIPS 距离,用于度量生成合成图的多样性。四项指标的结果见下表,可见我们方法在各项指标上显著优于之前方法。



另外,我们对不同方法生成的合成图进行可视化,结果如下图所示。我们的 GracoNet 在生成结果的合理性上优于之前的方法。



并且,我们比较了 GracoNet 和 PlaceNet 生成结果的多样性。下面是给定一对前景和背景,通过多次采样随机向量得到的多个结果。可以看出我们的方法能够生成合理多样的结果。



更多的可视化结果参见论文。我们也对方法的各个模块和超参数进行了详尽的分析,具体参见论文。




总结


我们把物体放置任务转换成图补全任务,并设计双路结构提升生成结果的多样性和合理性。OPA 数据集上的实验结果证明我们的方法显著优于之前的方法。我们方法的代码和模型已开源,并且是首个开源的物体放置算法。物体放置任务作为图像合成中不可或缺的一环,意义重大但工作甚少,欢迎关注物体放置任务,关注我们的 OPA 数据集和开源算法。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

登录查看更多
0

相关内容

CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
16+阅读 · 2022年4月18日
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
15+阅读 · 2021年4月12日
【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介
专知会员服务
19+阅读 · 2020年10月18日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
35+阅读 · 2020年9月2日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
ECCV 2022 | 底层视觉新任务:Blind Image Decomposition
ECCV 2022 | 港中文MMLab:基于Transformer的光流
PaperWeekly
0+阅读 · 2022年9月2日
ECCV2022 Oral| 无需前置条件的自动着色算法
极市平台
0+阅读 · 2022年7月16日
【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器
中国图象图形学学会CSIG
1+阅读 · 2021年10月20日
【速览】ICCV 2021丨MVSS-Net: 基于多视角多尺度监督的图像篡改检测
中国图象图形学学会CSIG
1+阅读 · 2021年9月3日
【泡泡图灵智库】基于CPU的实时6D物体姿态估计(arXiv)
泡泡机器人SLAM
12+阅读 · 2019年1月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月25日
Arxiv
29+阅读 · 2022年9月10日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
24+阅读 · 2020年3月11日
VIP会员
相关VIP内容
CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
16+阅读 · 2022年4月18日
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
15+阅读 · 2021年4月12日
【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介
专知会员服务
19+阅读 · 2020年10月18日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
35+阅读 · 2020年9月2日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员