论文解读：医学影像中的注意力机制

2020 年 7 月 18 日 极市平台

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

明天，极市平台将继续独家直播由山东大学主办的“可视计算”学术专题报告。国内外的知名学术专家，会就各自领域的基础理论、应用前景与前沿技术等方面进行专题报告。请大家锁定直播时间7月17日（星期五）—7月19日（星期日）。详情戳这里，在极市平台后台回复“61”，即可获取直播链接。

来源｜Daniel Liu@知乎，https://zhuanlan.zhihu.com/p/138555896

Multi-scale self-guided attention for medical image segmentation

该论文的方法为2019年发布的在CHAOS MRI Dataset上进行医学图像分割的最优方法，最终的Dice为86.75.

Introduction：对过往医学图像分割方法的看法

一、对于过往的模型的看法

1、在多数经典模型中对于多尺寸的使用，如unet结构,FCN结构。由于在一开始就是同样的low-level信息进行不断的特征提取，所以会造成信息的冗余使用。

2、过往模型应用在像素级别的分割挑战中的时候（如，医学领域的分割），可能会表现出判别能力的不足。

二、对于当下用于提高学习特征表达能力的方法，如多尺度的上下文融合，使用空洞卷积，pooling等方式的看法

1、尽管之前的做法可以获得目标在不同尺寸下的信息，但是对于所有的image的上下文联系都是homogenous的和非自适应的, 忽略了在不同类别中，local-feature和上下文依赖之间的差异。

2、这些多尺度的上下文依赖基本上都是人为设定的，缺乏模型自身的灵活性. 这使得对于图像中的一些长距离的联系没有办法被充分利用，而这些对于医学图像分割却是至关重要的。

三、对于注意力机制的看法

1、注意力机制的运用可以很好的突触分割区域的特征，并且抑制其他的噪音部分。

2、作者在本文中也使用了较为完善的注意力机制：a.对于不同尺寸的语义信息使用注意力机制；b.每个注意力模型均由position注意力模型和channel注意力模型两个部分组成；通过这样的方式可以让模型学习到更加广泛和丰富的上下文依赖信息，以及提升不同channel间上下文的依赖程度。

Method：对论文模型的详细描述

一、模型的总体描述

由于在常规的CNN中，global feature通常都是基于local receptive field 获得的。所以对于long-range的上下文依赖并没有被充分的表达出来。因此作者引入了注意力机制来解决该问题。首先通过多尺寸的策略来获取全局feature, 然后将所学习到的全局特征引入到注意力模块中。注意力模块由空间注意力模块和channel注意力模块两部分组成。注意力模块一方面可以帮助局部特征与全局特征的融合，另一方面也可以过滤到不相关的噪音信息。模型整体结构如下图所示：

二、多尺寸注意力机制

整个模型是基于ResNet-101进行的改进，Res-2, Res-3, Res-4, Res-5所生成的特征图F0，F1，F2, F3; 将他们通过线性插值的方式上采样到相同的尺寸，即F's. 讲所生成的F'0, F'1, F'2, F'3进行concate操作，而后进行卷积操作，生成多尺寸融合特征图FMS:

接着，把生成的FMS与F'0, F'1, F'2, F'3分别进行concate操作，而后进行卷积，最后fed into 注意力模型。得到不同的尺寸下的注意力特征图A0, A1,A2,A3:

三、空间和channel注意力特征图

这篇文章中的spatial and channel attention self-attention modules 主要来自于另外一篇论文：Dual Attention Network for Scene Segmentation

position attention module part：用于捕获长距离的依赖，解决局部感受野的问题。

前三个分支中，前两个分支F0和F1计算位置间的相关性矩阵

再由位置之间的相关性矩阵

指导第三条分支

计算得到空间注意力图，与输入进行加权和：

channel attention module(CAM):捕获通道间存在的依赖关系，增强特定的语义特征表示。

与spatial attention module 类似，三个分支中，前两个分支先计算channel中不同位置的相关性矩阵，再与第三个分支相乘，得到关于channel的注意力图，最终与输入进行加权和：

最后将空间注意力图与通道注意力图进行元素加操作得到空间-通道注意力特征图。

四、注意力loss

通过设置不同的loss，来引导模型在训练中，自我调整需要注意的信息，对于某一个尺寸的注意力机制模型图如下：

F一方面输入到注意力模型中产生注意力特征图，另一方面进入一个unet结构中，两个encode部分生产第一个注意力loss：

两个unet结构输出的结构生成第二个注意力loss:

分割loss为：

最终的总loss为：

参考资料

论文地址：https://arxiv.org/pdf/1906.02849.pdf

代码地址:

[1] sinAshish/Multi-Scale-Attentiongithub.com

[2]https://blog.csdn.net/gefeng1209/article/details/92986915?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3

[3] http://openaccess.thecvf.com/content_CVPR_2019/html/Fu_Dual_Attention_Network_for_Scene_Segmentation_CVPR_2019_paper.html

推荐阅读

添加极市小助手微信 （ID : cv-mart） ，备注： 研究方向-姓名-学校/公司-城市 （如：目标检测-小极-北大-深圳），即可申请加入 极市技术交流群 ，更有 每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、 干货资讯汇总、行业技术交流 ，一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台，获取 最新CV干货

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

[NeurIPS 2020 oral] 基于因果干预的弱监督语义分割

专知会员服务

47+阅读 · 2020年10月5日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

最新《医学图像深度语义分割》综述论文

专知会员服务

97+阅读 · 2020年6月7日

【北航】基于领域知识的深度学习医学图像分析研究综述,26页pdf

专知会员服务

139+阅读 · 2020年5月1日