【博士论文】基于深度学习的单目场景深度估计方法研究

2021 年 12 月 8 日 专知

来自南京理工大学张振宇的博士论文，入选2021年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml

基于深度学习的单目场景深度估计方法研究

单目图像的深度估计是计算机视觉研究的基础性课题，由于其可以指导多种高阶视觉任务的学习，且具有良好的实际应用前景，近年来也成为计算机视觉领域的热门课题。单目深度估计旨在基于单张图片或单目视频信息，预测并恢复出场景像素级别的深度信息。由于现实场景较为复杂，且单目图像或视频信息又缺乏鲁棒的几何约束，现有的深度估计方法往往会丢失细节或无法预测正确的尺度信息，使得其实际应用受到制约。本文通过设计有效的深度卷积网络及其学习框架，提出了几种新的深度估计方法。主要研究成果概述如下：

（1）本文提出了一种新的多尺度端到端深度估计框架。先前的主流方法往往只能预测超像素级别的深度信息，或基于多步非端到端的学习方法。这导致了算法预测的深度图像丢失细节，且不利于实际应用。为了端到端的预测精细的深度图像，本文从两个方面整合了多尺度信息：（a）提出了一种新的多尺度网络以学习多级深度表征，并利用多尺度表征逐步地引导网络的上采样和预测过程；（b）提出了一种细粒度正则化方法，使优化器引导网络学习正确的深度结构信息。在不同数据集上的大量实验表明，本文的方法可以预测更完善的细节信息，且可以取得同期最佳的预测效果。

（2）现有的基于深度神经网络的方法缺少有效机制以恢复并保留深度图像中的边缘细节信息，这使其预测效果受到影响。因此，本文提出了一种新的渐进困难挖掘网络以处理该问题。特别地，本文构建了困难挖掘目标函数，尺度内和尺度间子网络来精确地定位和修正预测困难的区域。尺度内修正模块可以递归地从不同语义特征中恢复深度细节，尺度间修正模块可以利用不同尺度的深度信息进行互补交互。困难挖掘目标函数可以引导网络的学习过程，使得网络自适应地关注容易产生累计预测误差的区域。这三种模块可以有效地协作，逐步地减少学习过程中的误差传播，进一步地增强深度预测效果。大量的实验分析表明，本文的方法可以有效恢复深度图像中的边缘和细节信息，并取得同期最好的预测效果。

（3）本文提出了一种新的任务递归学习框架（Task-recursive Learning, TRL）以同时处理语义分割，平面法向量预测和深度估计三个任务。TRL 通过一系列任务层面的交互以递归地修正预测结果，其中位于每一个时间阶段的网络模块可以封装每一个跨任务交互过程。在每一个时间阶段内，TRL将多任务学习过程序列化，并递归地进行交互。为了自适应地增强任务间的相似模式，本文将交互过程封装在任务注意力模块（TAM）中，进而使任务的学习过程可以相互促进。在时间阶段之间，通过使用特征选择单元（FS-unit），网络将先前获得的经验有选择性地传播至接下来的时间节点，进而使任务间的互补信息更充分地被利用。同时，任务交互序列也在由粗到细的尺度空间中得到延伸，使得细节信息可以被逐步地修正。最终，该多任务序列化问题被统一地整合进递归网络框架中。在公开数据集上的大量实验表明，本文的方法可以递归地修正三个任务的预测结果，并获得同期最佳的数值效果。

（4）本文提出了一种新的模式相似性传播框架以同时预测场景深度，法向量和语义分割。其动机来自于相应的统计观察，即模式相似像素对在同一任务内部和不同任务之间均频繁地出现。因此，可以进行两种形式的传播过程，即跨任务传播和任务特异传播以自适应地扩散这些相似的模式。跨任务传播通过计算非局部的关联性信息以整合跨任务的相似模式，使这些相似模式更好的适应每一个任务。任务特异性传播则是在特征空间进行迭代扩散过程，使跨任务的相似模式能够被广泛地应用于任务内部。由此一来，这些任务层面的关联性信息可以调整和促进每一个任务的学习。在公开数据集上的大量实验证明了本文方法的有效性，同时也在多个数据集和三个任务上获得了同期最佳的效果。

（5）在线的景深学习问题要求连续地调整深度估计模型使其适应于不断变化的场景。由于神经网络往往容易过拟合至当前场景而遗忘之前学得的经验，这类开放世界问题十分具有挑战性。为此，本文提出了一种新的抵抗遗忘的学习方法（LPF）以处理无监督的在线单目景深学习。与以往更新模型中所有参数的方法不同的是， LPF学习适应器模块以高效地调整特征表示和分布，从而避免在线场景下的知识丢失问题。具体地，本文提出了一个新的元学习方法，通过将在线适应过程与目标函数相结合，使学习到的适应器模块可以适应于视频中时间连续的景深模式。为了进一步地避免过拟合，本文提出了一种新的时间连续正则化方法来调整每个在线学习步骤的梯度下降过程。在现实场景数据库上的大量实验表明，本文的方法在仅增加少量参数的情况下，明显地提升了在线景深估计的质量。