Instance Segmentation 比 Semantic Segmentation 难很多吗？

Question

Instance Segmentation 比 Semantic Segmentation 难很多吗？

Image semantic segmentation 到 Image instance segmentation的过渡，难度在哪？网络模型的设计上主…

关注者

1,240

被浏览

260,330

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 16 个回答

本硕博都是数学学位

博士期间接触到图像分割、语义分割、实例分割

这里尝试用组合数学的角度对比一下这俩个task的难度

希望仅有排列组合基础的初中生也能看懂

如今大热的计算机视觉领域几个经典问题

首先盗用一下 @周博磊回答里的图

一、任务定义

Semantic Segmentation（c语义分割）：将每一个像素分类

Object Localization|detection（b目标检测）：检测并用方框标记出图片中的物体（找出方框中心点和长宽），并作分类

Instance Segmentation（d实例分割）：将图片中属于物体类别的像素识别出来并作分类

其中分类的类别可以是天空、草地、人、狗

Object（物体）特指可以被方框框定的类别

二、实例分割难于目标检测

这里我们做出这样一个假设

因为目前主流做实例分割的方法大都基于目标检测

即：

先跑目标检测

然后对于每一个方框跑一个二元图像分割（binary segmenation）

三、目标检测难于语义分割

假设一张图片10x10=100个像素

类别：草地、人、狗=3类

从组合数学的角度

语义分割是对每一个像素做分类

所以总共有3^100种不同的分类方法

即：

每个像素有3种不同可能性

换句话说

语义分割问题可以转化为一个从3^100种分类方案里找最好方案的组合优化问题 @运筹OR帷幄

而目标检测

首先

对于每一个像素

你不知道这个像素是否为某个物体的中心

因此有2种可能性（是或不是）

其次

每个方框里面是什么有3种可能性

再次

方框的长和宽也是不确定的

长和宽的可能性是1-5（这里5取了0和10的平均）、相乘便是25种可能性

因此

对于一张100个像素的图所有可能性的组合是（3x2x25）^100

即：

每个像素有150种不同可能性

P.S.:

这里提一个小插曲

因为博士期间没有接触过目标检测

找工作面试的时候被面到这个问题

结果“想当然”地答错了

希望这个回答可以提供给刚入门视觉的小伙伴

一些不一样的insights

编辑于 2019-08-21 01:02

查看全部 16 个回答

Instance Segmentation 比 Semantic Segmentation 难很多吗？

希望仅有排列组合基础的初中生也能看懂

一、任务定义

二、实例分割 难于 目标检测

三、目标检测 难于 语义分割

二、实例分割难于目标检测

三、目标检测难于语义分割