深度估计及应用

一、简介
从2D图像估计深度是场景重建和理解任务的关键步骤，例如3D目标检测和分割。基于单目图像获得深度信息被定义为MDE问题（Monocular Depth Estimation）。

二、参考文献与资料

参考论文：
1、Deep Ordinal Regression Network for Monocular Depth Estimation(CVPR, 2018)
2、MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization（AAAI，2019 oral）

参考文章：
1、https://blog.csdn.net/kingsleyluoxin/article/details/82377902

2、https://cloud.tencent.com/developer/article/1399535

3、https://blog.csdn.net/qq_26697045/article/details/84796815

参考代码：

1、https://github.com/hufu6371/DORN

2、https://github.com/Zengyi-Qin/MonoGRNet

三、概览
深度估计问题在计算机视觉领域属于3-D重建的一部分，即Shape from X。这个X包括stereo, multiple view stereo, silhouette, motion (SfM, SLAM), focusing, hazing, shading, occlusion, texture, vanishing points, ...前面5个都是多图像的输入，从空间几何，时域变换和焦距变化的关系推导深度距离。剩下的都是单目的输入。

深度估计可以用于3D建模、场景理解、深度感知(depth-aware)的图像合成等领域。

基于深度学习的单目估计依据是像素值关系反映深度关系，方法是拟合一个函数把图像映射成深度图：。从得出的深度图轮廓和不断提高的实验结果可以看出，的确可以用一个这样的函数从像素值中恢复出相对深度值。

如果把图像模糊度建模，根据图像边缘模糊的响应模型，那么单目图像也能估算深度，即shape from defocusing。

现有的单目深度估计方法通常利用单一视角的图像数据作为输入，直接预测图像中每个像素对应的深度值，这种解决方案导致现有方法通常需要大量的深度标注数据，而这类数据通常需要较高的采集成本。所以最新的深度估计大量采用无监督学习进行MDE

四、网络结构

　　网络由密集特征提取器，多尺度特征学习器（ASPP），cross channel信息学习器，全图像编码，和序数回归（ordinary regression）组成

1、密集特征提取器

　　传统的DCNN包含不断重复的maxpooling和striding 极大的减少了特征图像的分辨率，本文删除了DCNN最后的pooling层，并且随后使用了空洞卷积，从而在不降低空间分辨率或者增加参数数量的情况下增加了感受野

2、场景理解模块

　　包含三个部分，aspp， cross channel ，全图像编码。

　　ASPP：

　　网络中的 ASPP部分采用不同扩张系数（6，12，18）的扩张卷积操作，能够在不改变图像分辨率的前提下，有效得到不同感受野大小的卷积操作，进而得到多尺度融合特征。为了得到多尺度特征，采用上述的ASPP模块，该模块是将传统的特征提取网络中的压缩网络的部分变成了多尺度的扩张卷积操作，进而得到不同尺度的特征，用来表征不同大小区域的图像特征

　　1*1卷积能够学习复杂的cross channel信息

　　全图像编码能够获得全局的上下文信息

传统的方法采用全联接层获得上下文信息。这里提出的全图像编码包含了更少的参数传统的场景理解（上）采用全连接层，FC的每个元素与特征图中的所有像素相连接，以期得到全局的图像特征，再通过全连接层的操作还原成图像。本文采用的方法，首先通过一个核为k的池化层，得到一个池化之后的特征图，利用这个特征图，全连接层得到C个元素，将C个元素看作1x1xC 的特征图，运用1*1的卷积得到混合C个通道的特征，然后将这个特征复制得到新的生成的 WxHxC 的特征。

（channel attention？）

结果：