深度卷积神经网络图像语义分割研究进展

2021 年 1 月 7 日 专知

在计算机视觉领域中，语义分割是场景解析和行为识别的关键任务，基于深度卷积神经网络的图像语义分割方法已经取得突破性进展。语义分割的任务是对图像中的每一个像素分配所属的类别标签，属于像素级的图像理解。目标检测仅定位目标的边界框，而语义分割需要分割出图像中的目标。本文首先分析和描述了语义分割领域存在的困难和挑战，介绍了语义分割算法性能评价的常用数据集和客观评测指标。然后，归纳和总结了现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状，依据网络训练是否需要像素级的标注图像，将现有方法分为基于监督学习的语义分割和基于弱监督学习的语义分割两类，详细阐述并分析这两类方法各自的优势和不足。本文在PASCAL VOC（pattern analysis， statistical modelling and computational learning visual object classes）2012数据集上比较了部分监督学习和弱监督学习的语义分割模型，并给出了监督学习模型和弱监督学习模型中的最优方法，以及对应的MIoU（mean intersection-over-union）。最后，指出了图像语义分割领域未来可能的热点方向。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20200601&flag=1

语义分割是像素级的图像理解，即对图像中的每一个像素标注所属的类别，任务是将图像分割成若干个有意义的目标，并为各个目标分配指定类型标签。语义分割对图像中的每一个像素标注所属的类别，是计算机视觉领域中场景解析和行为识别的关键任务。语义分割的应用领域非常广泛，例如，在地理信息系统领域，通过训练神经网络可以自动识别卫星遥感影像中的道路、河流、庄稼和建筑物等；在智能车辆领域，将车载摄像头或激光雷达探查的图像输入神经网络，可以自动分割图像，对不同的目标进行识别，以避让行人和车辆等障碍物；在智能医疗领域，语义分割可以应用于肿瘤图像分割和龋齿诊断等；在日常生活领域，通过对人体图像的分割可以定位出人脸、躯干、着装等信息，从而实现自动试衣等功能。

传统的图像分割算法根据图像的颜色、纹理信息和空间结构等特征将图像分割成不同的区域，同一区域内具有一致的语义信息，不同区域之间属性不同。从最简单的阈值分割、区域生长、边缘检测到图划分(graph partitioning)的分割方法，图像分割算法层出不穷。其中，归一化分割(normalized cut)(Shi和Malik，2000)和GrabCut(Rother等，2004)是两种基于图划分的经典分割方法。归一化分割利用图论中的最小分割算法对图像进行语义分割；GrabCut则是一种交互式图像分割方法，利用图像纹理和边界信息，只需少量的用户交互操作即可获得较好的前景与背景分割结果。传统的图像分割算法由于没有数据训练阶段，虽然计算复杂度不高，但是在较困难的分割任务(不提供人为辅助信息)上，分割性能的提升空间有限。

Hinton和Salakhutdinov(2006)提出了深度学习的概念，利用多层神经网络从大量训练数据中自动学习高层特征。与Haar、局部二值模式(local binary patterns, LBP)、梯度方向直方图(histogram of oriented gradient, HOG)、尺度不变特征变换(scale invariant feature transform, SIFT)等传统手工设计的特征相比，深度卷积神经网络(deep convolutional neural network，DCNN)学习的特征更加丰富、表达能力更强(Krizhevsky等，2012)。深度学习已经广泛应用于各种各样的计算机视觉任务。在大量标注训练集的监督训练下，基于深度卷积神经网络的静态图像分类和目标检测已经取得了显著成果。随着分类网络性能的不断提高，研究学者开始关注解决像素级标注问题的语义分割。与传统的图像分割方法相比，基于深度学习的语义分割方法是从数据中自动学习特征，而非采用手工设计的特征，利用深度神经网络就可以实现端到端的语义分割预测。

图像语义分割的难点主要来自3个方面，即目标、类别和背景。在目标方面，同一目标在不同光照、视角、距离的条件下或者静止和运动时，拍摄的图像会明显不同，并且相邻目标之间也可能产生遮挡现象。在类别方面，同类目标之间存在相异性，而不同类目标之间存在相似性的问题。在背景方面，一般简单的背景有助于实现图像的语义分割，但实际场景中的背景是复杂的(黄凯奇等，2014)。

Garcia-Garcia等人(2018)、Lateef和Ruichek(2019)、Geng等人(2018)以及田萱等人(2019)的综述分别对基于深度学习的图像语义分割方法进行了较为系统的总结和分析。然而，Garcia-Garcia等人(2018)、Lateef和Ruichek(2019)以及Geng等人(2018)都是主要对基于监督学习的图像语义分割方法进行总结，田萱等人(2019)由于涉及的方向较为广泛，以至对每一类方法的描述较为简略。本文对前人工作进行了扩充和完善，同时增加了新的方法。根据语义分割模型的特性，从基于监督学习与弱监督学习两个方面对基于深度卷积神经网络的图像语义分割方法进行了归纳和总结，详细描述了每种方法的创新工作并分析了存在的问题。此外，介绍了语义分割存在的问题与挑战，以及语义分割算法性能评价的常用数据集和客观评测指标，最后指出了语义分割领域未来的研究方向。