浅谈立体匹配中的新式应用场景

会员服务 ·

浅谈立体匹配中的新式应用场景

2020 年 10 月 15 日 PaperWeekly

©PaperWeekly 原创 · 作者｜张承灏

单位｜中科院自动化所

研究方向｜场景感知和深度估计

基于深度学习的立体匹配（stereo matching）是根据左右视角的 RGB 图像来进行视差（深度）估计，两张图像的成像条件是具有相同内参的两台彩色相机，在同一时刻成像，并且经过水平校正。

常用的立体匹配数据集包括合成数据集 SceneFlow 和真实数据集 KITTI 2012/2015，MiddleBury，ETH3D 等。目前，在此场景下开展的研究主要可以分为以下几类：

Accurate Stereo Matching：以有监督学习的方式提升立体匹配算法在常用数据集上的准确率；
Real-Time Stereo Matching：探索更快速的立体匹配算法以满足实时性需求；
Un-/Self-supervised Stereo Matching：不依赖视差标签的无监督/自监督立体匹配；
Adaptive Stereo Matching：解决合成数据和真实数据领域偏差的自适应立体匹配；
Efficient Stereo Matching：探索轻量级的、内存占用低、参数量少的更高效的立体匹配；
Confidence Estimation & Measures：立体匹配中的置信度/不确定性估计和度量；

今年的顶会上涌现出一些新的立体匹配应用场景研究，它们不同于上述研究方向，而是基于立体匹配问题的引申和拓展。本文将从新场景，新应用和新数据三个方面来介绍相关的开源研究工作。

新场景

论文标题：

360SD-Net: 360° Stereo Depth Estimation with Learnable Cost Volume

论文来源：

ICRA 2020

论文链接：

https://arxiv.org/abs/1911.04460

论文代码：

https://albert100121.github.io/360SD-Net-Project-Page/

1.1 概述

经典的立体匹配主要用于对普通相机拍摄的左右视角图像进行水平方向的视差估计，左右视角图像满足透视投影。这篇论文提出了一个新场景：在上下视角的 360° 全景图像上进行球面视差估计，使得能够对感知到的整个场景进行三维重建。

上图展示了利用两个 Insta360® ONE X 相机采集全景图像的过程。将底部图像（bottom）作 180 度翻转，即可与顶部图像（top）进行配对来估计视差。360° 全景图像有以下两个特点：

将三维空间中的水平线投影到二维平面时并不总是保持水平，这意味着它不满足经典立体匹配中的水平极线约束。因此，作者采用上下（top-bottom）两个相机采集，使得上下视角图像在竖直方向是对齐的；
图像的顶部像素和底部像素比那些位于赤道线附近的像素拉伸得更多。因此作者提出了新的 360SD-Net 来专门学习竖直对齐的全景图像的视差/深度。

1.2 方法

下面首先介绍在 360° 全景图像下的视差/深度的几何定义，之后介绍论文提出的 360DS-Net。

球面视差

上图展示了在上下相机拍摄设置下的球面视差的几何关系图。设和分别是三维空间中的点在顶部相机和底部相机平面上的投影点。和分别是投影向量，而分别是投影向量与南极方向的夹角。

那么，顶部图像和底部图像之间的视差定义为两个夹角的差，即。而相对于顶部相机的深度定义为的范数，即：

其中是顶部相机和底部相机的基线。在透视投影立体匹配中视差和深度的关系是固定的，从上述公式可以看出，在全景图像立体匹配中，视差和深度的关系是随着角度变化的。因此，在实际中作者没有估计不太直观的视差，而是估计深度信息。

360SD-Net

上图是 360SD-Net 的整体结构，其主体框架来自于 PSMNet，包括三个组成部分：1）两个分支的特征提取模块用来提取双目全景图像的特征和极角的融合特征；2）用于扩大感受的 ASPP 模块；3）用于非线性球面投影的可学习的 cost volume。

最后采用 Stacked-Hourglass 来回归视图，采用 smooth L1 损失监督。

Polar Angle：根据球面视差的定义，视差的计算和投影向量的极角有关，这里作者引入极角作为额外的输入分支（如上图(a)），用来增加几何信息。采用残差模块提取 RGB 图像的特征，用三层 2D 卷积来提取极角的特征，之后将二者的特征进行融合，这比直接将二者的 concat 作为输入要更好。

ASPP Module：由于全景图像比常规图像具有更大的感受野，因此作者采用有空洞卷积的 ASPP 模块（如上图(b)）来提取多个尺度的特征，并且增加特征提取的感受野，以适应全景图像。

Learnable Cost Volume：已有的深度立体匹配采用固定步长的像素搜索策略来构建 cost volume，然而这种固定步长的逐像素搜索策略与来自极角的几何输入信息是不一致的。

因此，作者采用平移滤波器（shifting filter）来搜索最优的像素搜索步长。可学习的 cost volume（LCV）通过一个的 2D 卷积来实现（如上图 (c)），这种设计使得特征通道能够在竖直方向移动，符合全景图像的特点和球面视差的定义，从而保留全景图像的完整视图。

1.3 实验

360°全景图像数据集

作者利用 Minos 虚拟环境和 Stanford3D 点云的重投影，通过 Matterport3D 采集了两个具有照片真实感的数据集 MP3D 和 SF3D。这两个 360° 双目全景图像数据集各包含 1602/800 张训练图像，431/200 张验证图像和 341/203 张测试图像，其分辨率为 1024*512，包含深度标签。

这为后续研究全景图像的球面视差估计提供了新的数据集。作者在这些合成图像上训练并在真实场景下测试。为此，作者还采用 Insta360® ONE X 相机采集了真实场景的 360° 全景图像。

实验结果

首先是和 state-of-the-art 的立体匹配模型进行对比，可以看到 360SD-Net 在 MAE 和 RMSE 两个指标上均取得了最佳的效果。

作者还进行了消融实验来验证各个模块的有效性，包括 Pc（极角的融合特征），ASPP 和 LCV。这里 baseline 是采用固定步长的逐像素搜索策略来构建 cost volume，LCV（repli）是采用复制填充而不是零填充。

最后作者还在自己搜集的真实 360° 全景图像上进行了三维重建可视化，更多定量和定性的实验结果可以参考原论文。

新应用

论文标题：

Bi3D: Stereo Depth Estimation via Binary Classifications

论文来源：

CVPR 2020

论文链接：

https://arxiv.org/abs/2005.07274

论文代码：

https://github.com/NVlabs/Bi3D

2.1 概述

已有的立体匹配算法需要对每个像素点的精确视差值进行估计，虽然深度立体匹配模型在准确率上逐步提升，但是也需要较大的计算消耗。

在自动驾驶领域，有时我们并不需要估计十分准确的视差值，例如我们只需要知道目标是在某一个深度平面 的前方还是后方即可，这可以在很短时间内计算出来，且不需要消耗过多的计算资源。

本文在经典立体匹配场景上提出新的应用，即对深度进行二值化估计，从而平衡准确率和计算时延。

如上图所示，在自动驾驶场景上 (a)，给定一个深度平面，可以将场景中的目标分为在深度平面的前方和后方两类 (b)，这就是二值化深度估计。

如果计算时延允许，可以进一步引申出量化深度估计，即将深度值量化为 N 个层次，从而进行层次化的深度估计 (c)，量化的层次与计算复杂度成线性正相关；

另外，也可以选择一个连续的深度范围，在深度范围内进行连续深度估计，在深度范围之外的进行二值化深度估计 (d)；最后，能够对整个场景进行全深度估计 (e)。作者提出的这一套应用的核心是二值化深度估计网络 Bi3D。

2.2 方法

给定左右视角的图像和，可以通过选择一系列的候选视差值来构建平面代价体（plane sweep volume，PSV）。PSV 中相对参考左图的每个平面可以通过下式计算：

其中是根据单应矩阵的 warping 操作。给定匹配代价，已有的立体匹配算法通过 arg min 来估计逐像素的视差值。

二值深度估计

不同于上述直接回归逐像素视差，二值深度估计根据视差向量的方向特性来估计置信度。即，根据左右视角的关系，视差向量的方向都是向左的；在给定视差下，对右图进行 warping 操作后，若在深度平面前方的，那么视差向量方向保持向左不变；若在深度平面后方的，视差向量方向会翻转变成向右。

根据上述特性，可以将二值化深度估计建模为基于神经网络的二分类分类器，输入是双目图像和 PSV，输出映射到，即：

其中是神经网络的输出，是 sigmoid 函数，采用二进制交叉熵 BCE 损失进行训练。可以看做是一个置信度估计，越接近 0 或者 1，表示该像素越可能是在深度平面前方或者后方。

上图是 Bi3D 的网络结构图，利用 FeatNet 提取左右图特征，之后对右图进行 warping，将左图和 warp 后的右图作为 SegNet 的输入，再经过 SegRefine 优化得到二值化置信度估计。

上图中，横轴应为深度值，而纵轴是置信度 C。对于目标 A，在的前方，网络对此十分确信，因此输出值很接近 0；对于目标 C，在的前方，网络也十分确信的输出接近 1 的值；而对于目标 B，它正好落在分界平面上，其置信度估计会趋近于 0.5，使得很难判断其是在分界平面的前方还是后方。

对于这种不可避免的分类噪声，作者采用曲线下面积（AUC）来计算深度，简单并且有效，它可以公式化为求和的形式：

量化深度估计

如果计算时间允许，而我们又只需要较为粗略的深度估计信息，可以将整个深度范围量化为多个深度平面。给定多个并行的平面，二分类器的置信度和累计概率分布 CDF 有关：

这样可以确定像素点的深度值在某两个深度平面之间的概率：

如果要得到个量化层级，就需要采用个平面来划分，即将之前的二值深度估计网络运行次即可。

选择深度估计

为了更进一步精细化深度估计信息，可以选择一个深度估计的范围，对于在此范围前方和后方的目标进行二值化深度估计，例如之前图中的目标 A 和目标 C，对于在该范围的深度进行连续估计，作者设计了一个新的网络来实现。

2.3 实验

作者采用 SceneFlow 和 KITTI 双目数据集进行实验。在定量的比较中，在 SceneFlow 数据集上和 SOTA 相比排第二，在 KITTI benchmark 上比最早的 GC-Net 等要好，但是不如最近的 SOTA，因为 Bi3D 主要是面向新应用，全深度估计只是其中一个方面。

在定性实验中，结合二值深度估计和选择深度估计，对于真实场景中较远的目标只需要进行二值深度估计，以判断其大致深度，节约时间；当目标靠近后，进行选择深度估计，估计其在视野前方精细化的深度信息。

Bi3D 可以更专注于对特定区域的深度进行精细化的估计，而 GA-Net 这种全深度估计则在固定深度范畴不如 Bi3D。这表明通用的方法往往不能在每个特定应用上都做得很好。

新数据

论文标题：

Learning Stereo from Single Images

论文来源：

ECCV 2020

论文链接：

https://arxiv.org/abs/2008.01484

论文代码：

https://github.com/nianticlabs/stereo-from-mono/

3.1 概述

真实场景下的立体匹配数据集往往难以进行深度/视差标签的采集或标注，因此已有的真实数据集的规模都很小，例如 KITTI，MiddleBury 和 ETH3D。

一方面，可以利用计算机图形学构造 3D 模型，通过模拟器来构建合成图像，但是合成图像和真实图像之间存在很大的领域偏差（domain gap），主要表现在色彩、纹理信息等方面。

另一方面，可以通过真实图像的纹理贴图来构建更符合真实场景的合成图像，但是在场景布置，物体形状和色彩选择等方面都需要大量的人工设计，并且场景渲染也需要较大的计算资源。

这篇论文提出一种新的立体匹配数据集构造方法，无需人工数据采集和合成图像构建，通过已有的单目深度估计算法和其他任务中的单目自然图像来构建双目立体匹配数据集，比如用于目标检测的 COCO 数据集就具有大量真实场景的数据集。

这种方法可以构造超大规模的双目立体匹配数据集，虽然单目深度估计算法估计的视差并不都是准确的深度信息，但是通过大量带有噪声标签的监督训练仍然能够提升立体匹配算法在各种真实场景下的泛化能力。

3.2 方法

本文的目标是构建双目深度估计训练的数据集，它可以表示为。这里来自已有的数据集中的自然图像，和的构造过程如下：

利用已经训练好的单目深度估计网络来对左图进行深度估计，得到深度信息；是由估计的深度信息根据设定的相机参数转换得到的视差标签，其中是从中随机采样的尺度因子，这样可以保证得到的视差范围具有多样性。
合成的右图由左图和估计的视差通过 warping 操作得到，即将中的每个像素向左平移个像素，再利用插值法合成。

上述构造方法还存在两个问题：

由于遮挡的原因，中会出现缺失的像素点；另外，多个像素点可能最终落在右图中的同一个像素点上，由此带来冲突。
单目深度估计的不准确会造成深度图的不连续，从而在构造右图时出现很多野点（flying pixels）。

为了解决上述两个问题，作者分别采取深度图锐化，遮挡和冲突处理来构建更真实的右图，整个数据生成流程如下：

遮挡和冲突处理

处理遮挡：被遮挡的像素在右图中会成为没有填充的黑洞，因此处理遮挡的方法是将其用合适的纹理填充。作者从训练图像中随机选择图像的纹理信息，利用 color transfer 技术将的风格迁移到与保持一致得到，之后利用对应位置的像素来填充中缺失的空洞。

处理冲突：当多个像素点对应到右图中的同一位置时，作者采用视差值最大的像素点作为最终的选择，因为这些像素点彼此很近，应当保证在两个视角中都是可见的。

深度图锐化处理

从上图中可以看出，单目深度估计的不准确会产生不连续的深度图，从而在合成的右图出现如（b）图中的 flying pixels。

作者采用深度锐化技术来解决，即对深度图采用 Sobel 边缘算子进行处理，将响应大于 3 的像素点作为野点而去除。去除后能得到更加锐化的右图（c）。利用锐化后的双目图像得到的视差估计结果会更准确，如（e）和（f）的比较。

3.3 实验

数据集

作者通过整合多个已有的自然图像数据集来构造双目立体匹配数据集，将其称为 Mono for Stereo（MfS）数据集，MfS 数据集包括 COCO 2017，Mapillary Vistas，ADE20K，Depth in the Wild 和 DIODE。而测试数据集是常用的立体匹配数据集 KITTI 2012/2015，MiddleBury 和 ETH3D。