综述 | 深度卷积神经网络图像语义分割研究进展

2020 年 8 月 12 日 中国图象图形学报

计算机视觉领域，语义分割是场景解析和行为识别的关键任务，在大量标注训练集的监督训练下，基于深度卷积神经网络的静态图像分类和目标检测已经取得了显著成果。

图图今天推荐一篇发表在《中国图象图形学报》2020年第6期的综述论文《深度卷积神经网络图像语义分割研究进展》，从基于监督学习与弱监督学习两个方面对基于深度卷积神经网络的图像语义分割方法进行了归纳和总结，详细描述了每种方法的创新工作并分析了存在的问题。

不同数据集语义分割示意图

论文信息

题目：深度卷积神经网络图像语义分割研究进展

作者：青晨, 禹晶, 肖创柏, 段娟

关键词：语义分割; 卷积神经网络; 监督学习; 弱监督学习

引用格式：青晨, 禹晶, 肖创柏, 段娟. 2020. 深度卷积神经网络图像语义分割研究进展. 中国图象图形学报, 25(6): 1069-1090. [DOI: 10.11834/jig.190355]

论文看点

语义分割算法性能评价的常用数据集和客观评测指标

现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状

在PASCAL VOC数据集比较监督学习和弱监督学习的语义分割模型

图像语义分割相关领域未来可能的热点方向

常用数据集

1) PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012。PASCAL VOC是计算机视觉领域目标分类、识别和检测的挑战赛，提供检测算法和网络学习性能的标准标注数据集和评估系统。

2) MS COCO(microsoft common objects in context)2015。MS COCO数据集是一个大型的目标检测和语义分割的标注数据集，主要用于场景解析。

3) KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)。KITTI是移动机器人和自动驾驶领域中立体图像、光流、视觉测距、3D目标检测和3D跟踪等计算机视觉技术性能评测的数据集。

4) PASCAL-Part。PASCAL-Part是PASCAL VOC 2010数据集的一组附加标注数据集，为目标的每个部位提供了分割模板。

5) Cityscapes。Cityscapes是从50个不同城市的街道场景中收集的5 000幅高质量图像的像素级标注的大型数据集。

6) CamVid(Cambridge-driving labeled video database)。CamVid是最早应用于自动驾驶领域的语义分割数据集。

7) ADE20K。ADE20K数据集用于场景解析、语义分割、目标识别和语义理解等任务，包括室内和室外场景中的150个类别，训练集和验证集分别包括20 210和2 000幅图像，测试集暂未发布。

8) Sift Flow。Sift Flow数据集中的训练集包括街道、公路、森林、山脉、城市、乡村、海滩和建筑等8种不同户外场景的2 688幅图像，每幅图像的分辨率为256×256像素，包括建筑、大巴车、小汽车、十字路口、草、山、人、植物、杆、河流、公路、人行道、指示牌、天空、路灯、树和窗户等33个类别。验证集和测试集暂未发布。

9) NYUD v2(New York University depth dataset v2)。NYUD v2数据集包括由微软kinect设备捕获的1 449幅室内RGB-D图像，包括3个城市的464种室内场景，分为RGB图像集、深度图像集和RGB-D图像集，共包括室内目标的40个类别。训练集、验证集、测试集分别包括795、414、654幅图像。由于该数据集包含了较多室内场景，可以用于家庭机器人的训练任务。但是，NYUD v2数据集相对于其他数据集规模较小，限制了在深度神经网络中的应用范围。

10) SUN-RGBD(scene understanding-RGBD)。SUN-RGBD数据集包括10 000幅RGB-D图像、146 617个多边形标注、58 657个目标边框标注和大量的空间布局信息和类别信息，共800个类别，包括墙、地板、橱柜、床、椅子、沙发、桌子、窗户、衣服、电视和人等，主要适用于场景理解任务。训练集、验证集、测试集分别包括2 666、2 619、5 050幅图像。

基于监督学习的语义分割

表 1 PASCAL VOC 2012数据集上基于监督学习的语义分割方法性能比较

方法类别	方法名称	MIoU/%
基于解码器	SegNet(Badrinarayanan等，2017)	59.9
	FCN-8s(Long等，2015)	62.2
	DeconvNet(Noh等，2015)	72.5
基于特征图	RefineNet(Lin等，2017)	84.2
	PSPNet(Zhao等，2017)	85.4
	DeepLab v3(Chen等，2017)	85.7
基于概率图	GCRF-Net(Vemulapalli等，2016)	73.2
	CRF-RNN(Zheng等，2015)	74.7
	DPN(Liu等，2015)	77.5
	EncNet(Zhang等，2018)	85.9
多种策略结合	DeepLab v1(Chen等，2016)	71.6
	FeatMap-Net(Lin等，2016b)	78.0
	DeepLab v2(Chen等，2018a)	79.7
	Bilinski和Prisacariu(2018)	81.6
	GCN(Peng等，2017)	82.2
	DFN(Yu等，2018)	86.2
	DeepLab v3+(Chen等，2018b)	89.0

方法类别	方法名称	MIoU/%
基于目标边框	Dai等人(2015)	62.0
Khoreva等人(2017)	65.7
基于图像类别标签	Pathak等人(2015)	45.1
Pinheiro和Collobert(2015)	40.6
Wei等人(2016a)	43.2
Durand等人(2017)	43.7
AE(Wei等，2017a)	55.7
STC(Wei等，2017b)	51.2
Roy和Todorovic(2017)	53.7
Oh等人(2017)	56.7
Hong等人(2017)	58.7
Wang等人(2018)	61.2
Huang等人(2018)	63.2
Shen等人(2018)	63.9
基于草图	Lin等人(2016a)	63.1
Tang等人(2018)	74.5
基于多种标注信息	Papandreou等人(2015)	62.2

前沿进展 | 多媒体信号处理的数学理论

中国卫星遥感回首与展望

单目深度估计方法：现状与前瞻

目标跟踪40年，什么才是未来？

10篇CV综述速览计算机视觉新进展

算法集锦 | 深度学习在遥感图像处理中的六大应用

封面故事 | 从传统到深度：火灾烟雾识别综述

封面故事 | 光场数据压缩综述

学者观点 | 结合深度学习和半监督学习的遥感影像分类

编辑推荐 | 视频 + 地图！四维信息助力实景中国

深度学习+图像降噪，如何解决“卡脖子”问题？

❂ 专家报告

专家推荐|高维数据表示：由稀疏先验到深度模型

专家报告 | AI与影像“术”——医学影像在新冠肺炎中的应用

专家推荐|真假难辨还是虚幻迷离，参与介质图形绘制让人惊叹！

学者推荐 | 深度学习与高光谱图像分类【内含PPT 福利】

专家报告|深度学习+图像多模态融合

专家报告 | 类脑智能与类脑计算

实战例题！200+PPT带你看懂监督学习

118页PPT！机器学习模型参数与优化那些事儿~

专家开讲 | 机器学习究竟是什么？

❂ 论文写作

羡慕别人中了顶会？做到这些你也可以！

如何阅读一篇文献？

共享 | SAR图像船舶切片数据集

资源分享| 不知道如何获取最新的算法资讯？快来这里看一看

资源分享|热门IT资讯号推荐

本文系《中国图象图形学报》独家稿件

内容仅供学习交流

版权属于原作者

欢迎大家关注转发！

编辑：韩小荷

指导：梧桐君

审校：夏薇薇

总编辑：肖亮

声明

欢迎转发本号原创内容，任何形式的媒体或机构未经授权，不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流，内容为作者观点，不代表本号立场。未经允许，请勿二次转载。如涉及文字、图片等内容、版权和其他问题，请于文章发出20日内联系本号，我们将第一时间处理。《中国图象图形学报》拥有最终解释权。

尾巴.png