加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流! 同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
明天,极市平台将继续独家直播由山东大学主办的“可视计算”学术专题报告。国内外的知名学术专家,会就各自领域的基础理论、应用前景与前沿技术等方面进行专题报告。请大家锁定直播时间7月17日(星期五)—7月19日(星期日)。详情戳这里,在极市平台后台回复“61”,即可获取直播链接。
1、在多数经典模型中对于多尺寸的使用,如unet结构,FCN结构。由于在一开始就是同样的low-level信息进行不断的特征提取,所以会造成信息的冗余使用。
2、过往模型应用在像素级别的分割挑战中的时候(如,医学领域的分割),可能会表现出判别能力的不足。
二、对于当下用于提高学习特征表达能力的方法,如多尺度的上下文融合,使用空洞卷积,pooling等方式的看法
1、尽管之前的做法可以获得目标在不同尺寸下的信息,但是对于所有的image的上下文联系都是homogenous的和非自适应的, 忽略 了在不同类别中,local-feature和上下文依赖之间的差异。
2、这些多尺度的上下文依赖基本上都是人为设定的,缺乏模型自身的灵活性. 这使得对于图像中的一些长距离的联系没有办法被充分利用,而这些对于医学图像分割却是至关重要的。
三、对于注意力机制的看法
1、注意力机制的运用可以很好的突触分割区域的特征,并且抑制其他的噪音部分。
2、作者在本文中也使用了较为完善的注意力机制:a.对于不同尺寸的语义信息使用注意力机制;b.每个注意力模型均由position注意力模型和channel注意力模型两个部分组成;通过这样的方式可以让模型学习到更加广泛和丰富的上下文依赖信息,以及提升不同channel间上下文的依赖程度。
一、模型的总体描述
由于在常规的CNN中,global feature通常都是基于local receptive field 获得的。所以对于long-range的上下文依赖并没有被充分的表达出来。因此作者引入了注意力机制来解决该问题。首先通过多尺寸的策略来获取全局feature, 然后将所学习到的全局特征引入到注意力模块中。注意力模块由空间注意力模块和channel注意力模块两部分组成。注意力模块一方面可以帮助局部特征与全局特征的融合,另一方面也可以过滤到不相关的噪音信息。模型整体结构如下图所示:
二、多尺寸注意力机制
整个模型是基于ResNet-101进行的改进,Res-2, Res-3, Res-4, Res-5所生成的特征图F0,F1,F2, F3; 将他们通过线性插值的方式上采样到相同的尺寸,即F's. 讲所生成的F'0, F'1, F'2, F'3进行concate操作,而后进行卷积操作,生成多尺寸融合特征图FMS:
接着,把生成的FMS与F'0, F'1, F'2, F'3分别进行concate操作,而后进行卷积,最后fed into 注意力模型。得到不同的尺寸下的注意力特征图A0, A1,A2,A3:
三、空间和channel注意力特征图
这篇文章中的spatial and channel attention self-attention modules 主要来自于另外一篇论文:Dual Attention Network for Scene Segmentation
position attention module part:用于捕获长距离的依赖,解决局部感受野的问题。
前三个分支中,前两个分支F0和F1计算位置间的相关性矩阵
再由位置之间的相关性矩阵
指导第三条分支
计算得到空间注意力图,与输入进行加权和:
channel attention module(CAM):捕获通道间存在的依赖关系,增强特定的语义特征表示。
与spatial attention module 类似,三个分支中,前两个分支先计算channel中不同位置的相关性矩阵,再与第三个分支相乘,得到关于channel的注意力图,最终与输入进行加权和:
最后将空间注意力图与通道注意力图进行元素加操作得到空间-通道注意力特征图。
四、注意力loss
F一方面输入到注意力模型中产生注意力特征图,另一方面进入一个unet结构中,两个encode部分生产第一个注意力loss:
两个unet结构输出的结构生成第二个注意力loss:
分割loss为:
最终的总loss为:
参考资料