会员服务 ·

从图形学顶会到视觉顶会：一份改良何恺明早期工作的图像拼接矩形化新基准

2022 年 4 月 12 日 PaperWeekly

©作者 | 廖康

单位 | 北京交通大学

研究方向 | 计算机视觉、深度学习

论文标题：

Deep Rectangling for Image Stitching: A Learning Baseline

收录会议：

CVPR 2022

论文链接：

https://arxiv.org/abs/2203.03831

数据集和代码链接：

https://github.com/nie-lang/DeepRectangling

研究动机

图像拼接技术在获得大视场的同时也因为视角投影带来了不规则的边界问题（如图1b）。为了获得规则的矩形边界，裁剪（图1c）和图像补全（图1d）为两种常见的方法，但这两种方法会减少原始图像内容或增加新的图像内容，使得这些结果在实际应用中并不完全可靠。

为了解决上述问题，Meta/ 前 Facebook AI 科学家——何恺明早在 2013 年就提出了第一个解决该问题的方法——rectangling（矩形化），并发表于计算机图形学顶会 SIGGRAPH。该方法在不增加、不减少图像内容的基础上，通过网格变形的方式将不规则的拼接图映射为矩形。然而，该算法受限于 LSD 检测的性能同时也无法提取有效的语义感知特征，对结构复杂的场景并不鲁棒，其结果往往呈现出部分扭曲（图1e）。

在此背景下，我们提出了第一个拼接图像 rectangling 的深度学习解决思路，同时构建了第一个带标签的 rectangling 数据集，将计算机图形学问题结合新的深度学习范式并带至计算机视觉顶会。

Deep Rectangling

2.1 传统pipeline vs. 深度pipeline

▲ 图2. 传统矩形化 vs. 深度学习矩形化

传统方法分为两个阶段：local warping 和 global warping。

1. 在第一阶段，首先会借助于 image resize 中的经典工作 seam-carving，通过不断向拼接图中插入感知不明显的 seam，来使得拼接图逐渐变化为矩形，然后放置一个刚性的初始网格在其中，随后去掉之前插入的 seam，使得该矩形逐渐退化为拼接图的形状。这样一插一抽的过程帮助获得了一个紧贴着拼接图边界的初始网格（图 2a “initial mesh”）。

2. 在第二阶段，设计了 3 个能量项来优化最终的 target mesh （图 2a “optimized target mesh”）：直线保持项（约束 warp 后直线不会扭曲），形状保持项（鼓励 mesh 中每个网格的变形为相似变换）和边界项（强制约束最终 mesh 边界紧贴矩形边界）。

最后通过从 initial mesh 到 target mesh 的 warp，实现了拼接图的矩形化。从上述描述可以看出，该方法个两阶段的，每一步都过程繁复，最后两个 warp 过程由于 mesh 的不规则也无法采用矩阵加速。

区别于传统方法，我们设计了一种一阶段的 rectangling 策略。首先，我们预先定义好了 target msh 的形状（图 2b “predefined target mesh”）为一个刚性的规则矩形，这种定义有助于矩形加速实现 mesh warp，从而为深度学习实现 mesh warp 提供可能。随后 rectangling 被简化为了只需预测一个初始的mesh，并且这个初始的 mesh 必须和我们预定义的 target mesh 匹配。为了实现这一点，我们通过一个简单的神经网络从数据中学习 mesh 预测的能力。

2.2 网络结构与损失函数设计

从单张图像中预测 mesh 是一个 ill-posed 问题，就像是从单张图像中预测光流或深度。为了验证该问题的可解决性，我们没有设计复杂的网络结构，采用简单的特征提取+回归的思路来简单实现预测 mesh 这一功能。

网络结构如图3，我们将拼接图与 mask 进行 concat 作为输入，然后堆叠了简单的 conv-pooling 模块来提取特征，随后再通过简单的卷积来实现 mesh 的预测。其中 mesh (U×V) 被表示成了 (U+1)×(V+1) 个顶点，每个顶带包含 x 和 y 方向的偏移量。即 mesh 可被表示成 (U+1)×(V+1)×2 的 volume。

为了对标何恺明方法中优化的 3 个能量项，我们也将损失函数分为 3 个部分：content term，mesh term 和 boundary term。

1. 在 content term 中，我们采用了深度学习 image generation 任务中常见的 L1 像素 loss 和 L2 感知 loss，来帮助网络聚焦于语义感知明显的位置。

2. 在 mesh term 中，我们设计了一个网格间和网格内 loss，来约束相邻网格相似。

3. 在 boundary term 中，我们通过 mask 来约束 rectangling 的结果尽量为一个完美的矩形。

数据集 DIR-D

数据集生成的具体过程比较复杂，请参考原论文。

简单说来，为了获得 rectangling 的数据集，我们从正常的矩形图像出发，反向 warp 出非矩形的结果，来模拟拼接图的不规则边界。为了使得反向 warp 出的模拟拼接图更加真实且无畸变，我们人工对 warp 的结果进行了严格的筛选，最终从六万多张样本中挑选出了 5839 个训练样本和 519 个测试样本，每个样本的分辨率为 512×384。

部分数据集展示如下：

实验

为了证明本文方法的有效性，我们在提出的数据集（DIR-D）上对我们的方法与传统方法进行全面的对比，如定量评估、无参定量评估、定性结果比较、user study 等。下图为部分视觉质量比较：

▲ 图5. 在DIR-D数据集上的视觉质量比较

除此之外，我们还在经典的图像拼接数据集上展示了从拼接到 rectangling 的过程来验证本文算法的泛化性，如下：

局限与思考

本工作从一个有监督的角度解决了拼接图矩形化的问题，但传统的图形学算法都是没有监督的，它们从一种纯优化的角度找到了使得矩形化最合理的条件，比如直线保持，平行线保持等。那么矩形化这个问题，是否也能在深度学习中找到一种对应的无监督优化目标？就像是经典的 homography estimation、image stitching 或者 image resize 问题，现在有研究者开始尝试用深度学习的方式进行实现，而其中无监督的方法（unsupervised homo、unsupervised stitching 和 unsupervised resize）也正是找到了无监督的优化函数。