使用 Panoptic-DeepLab 改善整体场景理解

2020 年 8 月 26 日 谷歌开发者

文 / 学生研究员 Bowen Cheng 和研究员 Liang-Chieh Chen,Google Research


自动驾驶汽车和机器人等现实世界计算机视觉应用依赖于两大核心任务:实例分割语义分割。实例分割识别图像中单个“事物”(即人、动物、汽车等可数对象)的类和范围,并为每个事物分配唯一标识符(如 car_1 和 car_2)。这与语义分割相辅相成。语义分割对图像中的所有像素进行标记,包括存在的“事物”以及周围的“东西”(如草地、天空或道路等类似纹理或材料的无定形区域)。然而,后一项任务并不会区分属于对应类的不同 实例 的同一类的像素。

  • 实例分割
    https://cloud.google.com/blog/products/ai-machine-learning/whats-in-an-image-fast-accurate-image-segmentation-with-cloud-tpus

  • 语义分割
    https://ai.googleblog.com/2018/03/semantic-image-segmentation-with.html


全景分割将这两种方法统一,旨在为编码语义标签和实例 ID 的图像中的每个像素分配唯一值。现有大多数全景分割算法均基于 Mask R-CNN,它将语义分割和实例分割分开处理。实例分割步骤可识别图像中的对象,但通常会产生彼此重叠的对象实例掩膜。为了解决重叠实例掩膜之间的冲突,一般采用一种启发式方法,基于信任值分数较高的掩膜或使用类别之间的预定义成对关系(例如,领带总是应该戴在人的前面)来解决差异。此外,语义和实例分割结果之间的差异会通过偏重实例预测进行排序。虽然这些方法通常会产生良好的结果,但也引入了严重的延迟,不利于在实时应用中使用。


受实时全景分割模型的需求所推动,我们提出“Panoptic-DeepLab:一个简单、快速、强大的全景分割系统”,并已入围 CVPR 2020。在这项工作中,我们扩展了常用的现代语义分割模型 DeepLab,仅使用少量附加参数执行全景分割,并增加了边际计算开销。生成的模型 Panoptic-DeepLab 可以并行无重叠地进行语义分割和实例分割,避免了其他方法中手动设计的启发式方法。此外,我们还开发了一种高效计算操作,融合语义和实例分割结果,实现近乎实时的端到端全景分割预测。与基于 Mask R-CNN 的方法不同,Panoptic-DeepLab 不会生成边界框预测,并且在训练过程中只需要三个损失函数,远少于当前最先进的方法,如 UPSNet,后者最多可能需要八个。最后,Panoptic-DeepLab 已经在多个学术数据集上表现出 SOTA 的性能。

  • Panoptic-DeepLab:一个简单、快速、强大的全景分割系统
    https://arxiv.org/abs/1911.10194

Panoptic-DeepLab 获得的全景分割结果。左侧:视频帧用作全景分割模型的输入;右侧:结果叠加在视频帧上。每个对象实例都有一个唯一标签,例如 car_1、car_2 等



概览

Panoptic-DeepLab 在概念和架构上都很简单。它一共预测三个输出。第一个是语义分割,它为每个像素分配一个语义类(例如,汽车或草地)。但是,它不能区分同一类的多个实例。因此,如果一辆汽车部分落后于另一辆汽车,那么二者的相关像素将具有相同的相关类,并且彼此之间无法区分。这可以通过模型的后两个输出解决:每个实例的质量中心预测和实例中心回归。其中,模型学习将每个实例像素回归到其质量中心。后面这一步确保模型将给定类的像素关联到相应的实例。将预测所得前景像素分组到最接近的预测实例中心后,得到类无关实例分割,然后,按照多数表决规则将其与语义分割融合,生成最终全景分割。

Panoptic-DeepLab 概览:语义分割将图像中的像素与一般类相关联,而类无关实例分割步骤则识别与单个对象相关联的像素,不受类的影响。经过综合,即得最终全景分割图像



神经网络设计

Panoptic-DeepLab 包含四个组件:(1) 在 ImageNet 上预训练的编码器主干,由该架构的语义分割和实例分割分支共享;(2) 类似于 DeepLab 使用的多孔空间金字塔池化 (ASPP) 模块,在每个分支中独立部署,以便在一系列空间尺度上进行分割;(3) 针对每个分割任务的类似解耦解码器模块;(4) 特定于任务的预测头 (Prediction Heads)。


编码器主干 (1) 在 ImageNet 上经过预训练,提取由架构的语义分割和实例分割分支共享的特征图。通常,特征图由主干模型使用标准卷积生成,输出图的分辨率由此降低到输入图像的 1/32,对于精确的图像分割而言过于粗糙。为了保留对象边界的细节,我们改用多孔卷积 (Atrous Convolution),更好地保留边缘等重要特征,生成分辨率为原始分辨率的 1/16 的特征图。然后再使用两个 ASPP 模块 (2),每个分支一个模块,采集多尺度信息进行分割。

  • 多孔卷积
    https://tensorflow.google.cn/api_docs/python/tf/nn/atrous_conv2d


轻量级解码器模块 (3) 沿用最新 DeepLab 版本 (DeepLabV3+) 所用模块,但有两处修改。首先,我们在解码器中重新引入了一个额外的低级特征图(1/8 比例),有助于保留原始图像的空间信息(如对象边界),因为这些信息在主干输出的最终特征图中可能会显著降低。其次,解码器没有采用典型的 3 × 3 内核,而是采用 5 × 5 深度可分离卷积,以极小的额外开销成本提供更好的性能。


两个预测头 (4) 根据其任务量身定做。语义分割头采用标准自举交叉熵损失函数的加权形式,该函数对每个像素进行不同的加权,并被证明是分割小规模对象的高效途径。实例分割头经过训练,在不知道对象类的情况下预测对象实例的质量中心与周围像素之间的偏移,形成类无关实例掩膜。



结果

为了证明 Panoptic-DeepLab 的有效性,我们对三种常用学术数据集 Cityscapes、Mapillary Vistas 和 COCO 进行了实验。使用简单架构,Panoptic-DeepLab 在 Cityscapes 的所有三个任务(语义、实例和全景分割)中均排名第一,且没有进行任何特定于任务的微调。此外,Panoptic-DeepLab 还在 ICCV 2019 COCO 和 Mapillary 识别联合挑战赛研讨会的 Mapilla 全景分割赛项获得 最佳结果、 最佳论文和 最佳创新 奖。它以 1.5% 的优势超越了 2018 年的冠军。最后,Panoptic-DeepLab 在 COCO 数据集上创造了自下而上(即无框)全景分割的全新最先进结果,并可与其他基于 Mask R-CNN 的方法相媲美。

跨三个数据集的准确率 (PQ) 与速度(GPU 推理时间)



结论

Panoptic-DeepLab 具有简单的架构和仅三个训练损失函数,可实现最先进的性能,同时比其他基于 Mask R-CNN 的方法更快。综上所述,我们开发了第一个单镜头全景分割模型,在多个公共基准上均具有最先进的性能,并提供了接近实时的端到端推理速度。我们希望我们简单高效的 Panoptic-DeepLab 能够建立一个坚实的基准,进一步造福于研究界。



致谢

我们要感谢 Maxwell D. Collins、Yukun Zhu、Ting Liu、Thomas S. Huang、Hartwig Adam、Florian Schroff 以及 Google Mobile Vision 团队的支持和宝贵意见。


更多 AI 相关阅读:



登录查看更多
3

相关内容

专知会员服务
83+阅读 · 2020年9月27日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
17+阅读 · 2020年8月23日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
85+阅读 · 2020年6月9日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
175+阅读 · 2020年2月8日
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
最全综述 | 图像目标检测
计算机视觉life
31+阅读 · 2019年6月24日
最全综述 | 图像分割算法
计算机视觉life
14+阅读 · 2019年6月20日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
Arxiv
16+阅读 · 2020年5月20日
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
Arxiv
17+阅读 · 2018年4月2日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关资讯
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
最全综述 | 图像目标检测
计算机视觉life
31+阅读 · 2019年6月24日
最全综述 | 图像分割算法
计算机视觉life
14+阅读 · 2019年6月20日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
相关论文
Top
微信扫码咨询专知VIP会员