从图形学顶会到视觉顶会:一份改良何恺明早期工作的图像拼接矩形化新基准

2022 年 4 月 12 日 PaperWeekly


©作者 | 廖康

单位 | 北京交通大学

研究方向 | 计算机视觉、深度学习



论文标题:

Deep Rectangling for Image Stitching: A Learning Baseline

收录会议:

CVPR 2022

论文链接:

https://arxiv.org/abs/2203.03831

数据集和代码链接:

https://github.com/nie-lang/DeepRectangling




研究动机


▲ 图1. 拼接图不规则边界的不同处理方法


图像拼接技术在获得大视场的同时也因为视角投影带来了不规则的边界问题(如图1b)。为了获得规则的矩形边界,裁剪(图1c)和图像补全(图1d)为两种常见的方法,但这两种方法会减少原始图像内容或增加新的图像内容,使得这些结果在实际应用中并不完全可靠。


为了解决上述问题,Meta/ 前 Facebook AI 科学家——何恺明早在 2013 年就提出了第一个解决该问题的方法——rectangling(矩形化),并发表于计算机图形学顶会 SIGGRAPH。该方法在不增加、不减少图像内容的基础上,通过网格变形的方式将不规则的拼接图映射为矩形。然而,该算法受限于 LSD 检测的性能同时也无法提取有效的语义感知特征,对结构复杂的场景并不鲁棒,其结果往往呈现出部分扭曲(图1e)。


在此背景下,我们提出了第一个拼接图像 rectangling 的深度学习解决思路,同时构建了第一个带标签的 rectangling 数据集,将计算机图形学问题结合新的深度学习范式并带至计算机视觉顶会。




Deep Rectangling


2.1 传统pipeline vs. 深度pipeline


(a) 传统 pipeline (Kaiming),两阶段 warp 流程


(b) 深度 pipeline (Ours),一阶段 warp 流程

▲ 图2. 传统矩形化 vs. 深度学习矩形化


传统方法分为两个阶段:local warping 和 global warping。


1. 在第一阶段,首先会借助于 image resize 中的经典工作 seam-carving,通过不断向拼接图中插入感知不明显的 seam,来使得拼接图逐渐变化为矩形,然后放置一个刚性的初始网格在其中,随后去掉之前插入的 seam,使得该矩形逐渐退化为拼接图的形状。这样一插一抽的过程帮助获得了一个紧贴着拼接图边界的初始网格(图 2a “initial mesh”)。


2. 在第二阶段,设计了 3 个能量项来优化最终的 target mesh (图 2a “optimized target mesh”):直线保持项(约束 warp 后直线不会扭曲),形状保持项(鼓励 mesh 中每个网格的变形为相似变换)和边界项(强制约束最终 mesh 边界紧贴矩形边界)。


最后通过从 initial mesh 到 target mesh 的 warp,实现了拼接图的矩形化。从上述描述可以看出,该方法个两阶段的,每一步都过程繁复,最后两个 warp 过程由于 mesh 的不规则也无法采用矩阵加速。


区别于传统方法,我们设计了一种一阶段的 rectangling 策略。首先,我们预先定义好了 target msh 的形状(图 2b “predefined target mesh”)为一个刚性的规则矩形,这种定义有助于矩形加速实现 mesh warp,从而为深度学习实现 mesh warp 提供可能。随后 rectangling 被简化为了只需预测一个初始的mesh,并且这个初始的 mesh 必须和我们预定义的 target mesh 匹配。为了实现这一点,我们通过一个简单的神经网络从数据中学习 mesh 预测的能力。


2.2 网络结构与损失函数设计


▲ 图3. 网络结构


从单张图像中预测 mesh 是一个 ill-posed 问题,就像是从单张图像中预测光流或深度。为了验证该问题的可解决性,我们没有设计复杂的网络结构,采用简单的特征提取+回归的思路来简单实现预测 mesh 这一功能。


网络结构如图3,我们将拼接图与 mask 进行 concat 作为输入,然后堆叠了简单的 conv-pooling 模块来提取特征,随后再通过简单的卷积来实现 mesh 的预测。其中 mesh (U×V) 被表示成了 (U+1)×(V+1) 个顶点,每个顶带包含 x 和 y 方向的偏移量。即 mesh 可被表示成 (U+1)×(V+1)×2 的 volume。


为了对标何恺明方法中优化的 3 个能量项,我们也将损失函数分为 3 个部分:content term,mesh term 和 boundary term。


1. 在 content term 中,我们采用了深度学习 image generation 任务中常见的 L1 像素 loss 和 L2 感知 loss,来帮助网络聚焦于语义感知明显的位置。


2. 在 mesh term 中,我们设计了一个网格间网格内 loss,来约束相邻网格相似。


3. 在 boundary term 中,我们通过 mask 来约束 rectangling 的结果尽量为一个完美的矩形。



数据集 DIR-D


数据集生成的具体过程比较复杂,请参考原论文。


简单说来,为了获得 rectangling 的数据集,我们从正常的矩形图像出发,反向 warp 出非矩形的结果,来模拟拼接图的不规则边界。为了使得反向 warp 出的模拟拼接图更加真实且无畸变,我们人工对 warp 的结果进行了严格的筛选,最终从六万多张样本中挑选出了 5839 个训练样本和 519 个测试样本,每个样本的分辨率为 512×384。  


部分数据集展示如下:


▲ 图4. 数据集展示




实验


为了证明本文方法的有效性,我们在提出的数据集(DIR-D)上对我们的方法与传统方法进行全面的对比,如定量评估、无参定量评估、定性结果比较、user study 等。下图为部分视觉质量比较:


(a) 线性结构丰富的场景(对严重依赖 LSD 的传统算法有利)


(b) 非线性结构丰富的场景,如人像

▲ 图5. 在DIR-D数据集上的视觉质量比较


除此之外,我们还在经典的图像拼接数据集上展示了从拼接到 rectangling 的过程来验证本文算法的泛化性,如下:


▲ 图6. 跨数据集评估




局限与思考


本工作从一个有监督的角度解决了拼接图矩形化的问题,但传统的图形学算法都是没有监督的,它们从一种纯优化的角度找到了使得矩形化最合理的条件,比如直线保持,平行线保持等。那么矩形化这个问题,是否也能在深度学习中找到一种对应的无监督优化目标?就像是经典的 homography estimation、image stitching 或者 image resize 问题,现在有研究者开始尝试用深度学习的方式进行实现,而其中无监督的方法(unsupervised homo、unsupervised stitching 和 unsupervised resize)也正是找到了无监督的优化函数。


TIP2021—重访CV经典: 首个无监督深度学习图像拼接框架:

https://zhuanlan.zhihu.com/p/386863945


除此之外,该工作目前只考虑了两张图拼接的矩形化情况,然而更多图像无规则的边界会更加具有挑战性。而且,对于视频拼接的结果进行矩形化也值得进一步探索,如何在时间上稳固视频拼接矩形化的结果是非常具有实际价值的研究问题。


最后,本文的代码与数据集均已开源,欢迎各位使用、测评、讨论。




独家定制「炼丹贴纸」

限量 200 份!

扫码回复「贴纸」 

立即免费参与领取

👇👇👇




更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

图像拼接(image stitching)是指将两张或更多的有重叠部分的影像,拼接成一张全景图或是高分辨率影像的技术。图像拼接有两大步骤:图像配准和图像融合
CVPR2022 | 一种适用于密集场景的渐进式端到端目标检测器
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
42+阅读 · 2022年1月6日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
18+阅读 · 2021年11月28日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
最新开源 RGBD+IMU数据集:FMDataset
计算机视觉life
42+阅读 · 2019年9月21日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
25+阅读 · 2018年6月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Simple and Effective Unsupervised Speech Synthesis
Arxiv
2+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月17日
Principal Neighbourhood Aggregation for Graph Nets
Arxiv
17+阅读 · 2020年6月7日
VIP会员
相关VIP内容
CVPR2022 | 一种适用于密集场景的渐进式端到端目标检测器
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
42+阅读 · 2022年1月6日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
18+阅读 · 2021年11月28日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员