【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

摘要：场景分割问题是计算机视觉领域基本而重要的问题，具有广泛的应用价值。场景分割需要解决的科学问题是如何对场景中的要素进行精确分割。其主要难点在于场景图像的结构十分复杂，包含多种类别和多种尺度的要素，且这些要素之间存在着丰富的空间关系。同时在实际应用中，在保证场景分割精度的条件下也需要综合考虑计算复杂度和速度。因此，场景分割问题的主要难点和挑战可概括为三个方面：1）尺度变换多样，2）空间关系复杂，3）时间复杂度高。近年来，基于深度学习，尤其是卷积神经网络的方法在场景分割领域取得了巨大的进展，但基于深度学习的场景分割方法还存在着一定的局限性。本课题对基于深度学习的场景分割方法进行研究，针对上述三个难点和挑战，取得了以下成果：

基于尺度自适应卷积的场景分割方法目前基于深度学习的场景分割方法主要利用标准卷积，其感受野大小固定。而场景图像中要素的尺度变化多样，导致大尺度要素分割结果不连续，小尺度要素与背景混淆而遗漏的问题。针对该问题，我们提出尺度自适应卷积方法，对场景图像中不同尺度的要素自适应改变卷积感受野大小。该方法可以缓解由于标准卷积感受野固定引起的大尺度要素分割结果不连续和小尺度要素被遗漏的问题。尺度自适应卷积的整个过程是可导的，其卷积参数可以利用一个端到端的结构从数据中自动和隐式的学习。我们在 Cityscapes 和 ADE20K 两个数据集上验证了尺度自适应卷积的有效性。
基于全局和局部修正的场景分割方法场景图像中具有复杂的空间关系和丰富的上下文信息，对场景中要素的识别具有极大的帮助作用。我们分别利用全局上下文信息和局部上下文信息对给定的场景分割结果进行修正。我们首先提出全局残差修正网络，通过捕捉图像中的全局上下文信息进行分割结果的修正。经过全局残差修正网络修正之后，原始分割结果中不一致、不连续的区域将被修正。其次，我们提出局部边界修正网络，通过捕捉图像中的局部上下文信息，对给定分割结果的边界和细节进行修正。经过局部边界修正网络修正之后，原始分割结果中的分割边界将更加精确和平滑。这两种修正网络均可单独使用，也可以级联在给定的分割网络之后形成一个统一框架，以共同提高修正结果的精度。在 Cityscapes 和 ADE20K 两个数据集上的结果显示这两种修正网络可以有效提高给定分割结果的精度。
基于高分辨率特征图重建的场景分割加速方法现有大多数场景分割方法着眼于提高模型的分割精度，因此使用较深的神经网络和较高分辨率的特征图，分割精度较高但速度较慢。为解决由于较大尺寸输入图像和高分辨率特征图导致的场景分割速度较慢的问题，我们提出高分辨率特征图重建方法对任意给定的场景分割框架进行加速。该方法利用降采样输入图像的特征图对原始大小输入图像的特征图进行重建。利用降采样输入图像进行特征学习的速度较快，而重建原始大小输入图像的特征图可以缓解使用降采样输入图像导致的细节丢失和精度下降问题。我们在两个公开数据集上验证了高分辨率特征图重建方法的有效性，当使用 1/2 降采样率时，可以在分割精度损失忽略不计的情况下得到约 3 倍的加速比。

关键词：场景分割，深度学习，尺度自适应卷积，全局和局部修正网络，高分辨率特征图重建

作者简介：张蕊，2009年9月-2013 年7月，在北京航空航天大学数学与系统科学学院获理学学士学位。2013年9月-2019年7月，在中国科学院计算技术研究所攻读博士学位，博士生导师是李锦涛。

成为VIP会员查看完整内容