自动驾驶入门日记-3-图像语义分割

在基于图像的语义分割问题中,为了解决FCN中结果比较粗糙的问题,后续在FCN的基础上进行了许多精细化工作,主要可以分为两个方面的优化,第一是利用条件随机场(CRF)或者其变体来提升局部准确率,第二是设计一个多尺度模型以结合高层和底层特征信息进行语义分割,下面结合几篇比较出色的论文进行简单阐述。

1.CRF

代表论文:

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

Semantic image segmentation via deep parsing network

Conditional random fields as recurrent neural networks

DeepLab

DeepLab是一个很优雅的结构,论文工作在2014年就已经完成了,最终被收录于2017年PAMI,现在的很多工作都是基于这篇论文的基础上完成的,因此很值得一读。

DeepLab实在DCNN结构上改进的语义分割模型,因此作者提出了DCNN在语义分割这一任务中的局限性,并提出了自己的解决方案。

1.分辨率下降

在FCN中解决这一缺陷的方法是反卷积,本文作者提出了一种atrous conv+双线性插值的方法,该方法受启发于通信技术,可以在不增加参数个数的情况下获得更大的感受野。

2.物体存在不同的尺度

对这个问题,通常的做法是将同一幅图像的不同尺度的feature/score map聚合得到结果,作者认为这样的方法的确可以增提高性能,但是增加量计算量。因此作者提出了“atrous spatial pyramid pooling” (ASPP)方法,即在卷积操作之前采用多个不同采样率的atrous convolutional layers进行resample。

3.定位不精确

在物体检测任务中需要对空间变换具有不变性,因此限制了DCNN的空间精度。 FCN解决该问题的方法是skip-layers ,从多层提取出hyper-column features 进行融合,本文作者提出了一个更为有效的方法:采用一个fully-connected CRF来优化目标边界。

方法流程图

文中提到的三个贡献

1.Atrous conv 

个人认为是文章中最精彩的工作,这里使用了一个非常漂亮的做法,作者将pooling的stride改为1,再加上 1 padding。这样池化后的图片尺寸并未减小,并且依然保留了池化整合特征的特性。

但是,因为池化层变了,后面的卷积的感受野也对应的改变了,这样也不能进行参数微调了。所以,Atrous Convolution就诞生了。


1维空洞卷积操作示意图


感受野变化

上图a为普通的池化的结果,感受野大小为7,但是损失了信息;b为“优雅”池化的结果。b上进行同样的卷积操作,对应的感受野变为了5(输入5维输出4维,上图b中绿、橙、蓝、黄四个点),感受野减小了。而使用hole为1的Atrous Convolution进行步长为1的卷积操作,则感受野依然为7,同时保证输出的结果更加精确.


上采样与空洞卷积对比

从上图可以看出,使用空洞卷积可以得到分辨率更高的结果。

2.多尺度图像表征

为了提取不同尺度物体的特征,作者受到RCNN的启发,对同一图像同时采用多个不同采样率的空洞卷积,最后整合在一起。


多尺度图像表征

3.物体边界定位(恢复)

这里采用全连接条件随机场进行边界恢复,将深度卷积神经网络的识别能力和全连接条件随机场优化的定位精度耦合在一起,得到了很好的结果。


全连接条件随机场

对于每个像素i具有类别标签xi还有对应的观测值yi,这样每个像素点作为节点,像素与像素间的关系作为边,即构成了一个条件随机场。而且我们通过观测变量yi来推测像素i对应的类别标签xi.更多公式及计算细节可以参考全连接条件随机场(DenseCRF)

其他学习资料:

DeepLab官网


Semantic image segmentation via deep parsing network(DPN)

Conditional random fields as recurrent neural networks(CRFasRNN)

这两篇论文都是的前端框架与DeepLab和FCN类似,论文将重点放到了后端框架与前端框架的融合当中,即如何设计一种端到端的模型。在DPN中作者使用MRF代替CRF,并将平均场构造为CNN的形式,并且在训练过程中可以one-pass inference,免去了迭代的麻烦。


DPN

而在CRFasRNN这篇文章中,看标题就可以知道,作者将CRF转化为卷积计算的形式,但是由于作者将其进行了迭代,所以文章认为其是as RNN。


CRFasRNN

深度学习中的网络结构例如CNN,RNN可以有效的提取数据特征,而好的特征将为下一步的分类或回归问题带来好处。同时将概率图模型网络化将使深度学习结构具有更好的可解释性,并且得到一个端到端的网络结构。

其他学习材料:

CRF,条件随机场

概率图模型是人工智能的另一个主要研究方向,其经典著作和论文很多,但本人水平有限,还没有学到其皮毛,感兴趣的朋友可以深入研究,很有意义的一个领域。

祝好!愿与诸君一起进步。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,373评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,732评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,163评论 0 238
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,700评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,036评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,425评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,737评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,421评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,141评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,398评论 2 243
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,908评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,276评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,907评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,018评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,772评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,448评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,325评论 2 261

推荐阅读更多精彩内容