新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

2022 年 8 月 16 日 专知

来自新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

Transformer 在自然语言处理(NLP)领域占据了很长一段时间。近年来，基于Transformer 的方法被广泛应用于计算机视觉领域，并取得了良好的效果。医学图像分析作为CV领域的一个重要分支，正当地加入了基于Transformer的方法的浪潮。在本文中，我们阐述了注意力机制的原理，Transformer 的详细结构，并描述了Transformer如何被采用到CV领域。我们按照不同的CV任务顺序组织基于Transformer的医学图像分析应用，包括分类、分割、合成、配准、定位、检测、字幕和去噪。对于主流的分类和分割任务，我们根据不同的医学影像方式进一步划分了相应的工作。我们的工作包括13种模式和20多个对象。我们还将每个模态和物体所占的比例可视化，给读者一个直观的印象。希望我们的工作能为未来基于Transformer 的医学图像分析的发展做出贡献。

Transformer[1]是自然语言处理(NLP)领域中应用最广泛的模型之一，在释义生成[2]、文本到语音合成[3]、语音识别[4]等任务中取得了巨大的成功。它被设计用于转导和序列建模在建模远程依赖与数据的显著能力内。Transformer由编码器和解码器组成，其中编码器和解码器是连续相同块的串联。它是无卷积的，完全基于自注意力机制，本文简称为注意力机制。注意力机制是将单个序列的不同位置关联起来，计算序列表示[1]的过程。在语句嵌入[5]、自然语言推理[6]、抽象摘要[7]、机器阅读[8]等NLP任务中取得了很大的成功。

与NLP领域不同，计算机视觉(CV)领域自AlexNet[12]提出以来，长期以来无论是分类[10]、分割[11]、检测[11]，还是其他任务，都由卷积神经网络[9](CNN)主导。CNN是一种深度学习(deep learning, DL)模型，用网格模式处理数据，旨在捕捉特征的空间层次[13]。它具有显著的感应能力，由多种块体组成，如卷积层、全连通层等。受transformer在NLP领域取得成功的启发，许多尝试将CNN和attention结合起来[14,15]，但这些尝试都没有影响CNN在CV领域的领导地位。在2020年，Dosovitskiy和同事[16]提出了一个将CNN和Transformer 直接结合的革命模型。它们对CV域使用的图像进行修补和嵌入，并将嵌入的图像提供给NLP域使用的改进transformer编码器。他们提出的工作取得了前所未有的成功，开启了用基于transformer的方法解决CV任务的里程碑。到目前为止，基于transformer 的方法已经在许多CV任务中实现，并取得了较好的效果[17,18,19]。

医学图像分析是简历领域的一个重要分支，它也应该参与到这场革命中来。它是一个处理和创建体内[20]视觉表征的过程，能够帮助医生从不同方面进行诊断。医学图像可以分为不同的模式，如MRI、CT、x射线等，这取决于图像捕获的方式。基于transformer的方法在医学图像分析中得到了广泛的应用，无论是单独使用transformer[21]还是将CNN和transformer混合来获取局部和全局信息[22]。尽管如此，仍有研究空白。以往基于transformer的医学图像分析研究都是报告实验结果的原创研究，据我们所知没有相关的发表评论。已有的文献综述[23,24,25,26,27]都集中于使用基于CNN的方法分析医学图像。为了对基于transformer的医学图像分析提供指导，我们写了这篇综述，相信它可以为进一步的研究做出很大的贡献。我们工作的整体工作流程如图1所示。

图1 我们工作的整体工作流程。我们首先在数据库中搜索相关的论文，然后删除不相关的论文。精选的论文根据不同的任务配图。在分类和分割方面，由于大量的工作，我们进一步按照模态进行划分。对于所有的任务，有13种模式包括和超过20个对象相关。最后，对模型和对象进行了总结。

本文其余部分的组织如下:在第2章中，我们阐述了注意力机制的原理，transformer 的详细结构，并描述了transformer 如何被引入CV领域。在第三章中，我们从不同的CV任务角度组织基于transformer 的医学图像分析应用，包括分类、分割、合成、配准、定位、检测、字幕和去噪。还列出了使用的相关数据集。为了分类和分割，我们进一步将工作按照模式进行划分。在这项工作中有13种模态和20多个对象。我们还将每个模态和物体所占的比例可视化，给读者一个直观的印象。第四章是结论和存在的挑战。

应用

我们在不同的CV任务序列中阐述了基于Transformer的医学图像分析应用，包括分类、分割、合成、配准、定位、检测、字幕和去噪 。介绍了相关数据集。对于分类和分割，由于包含了大量的工作，我们进一步通过x射线、US、MRI等方式进行划分。在这项工作中，我们包括了如图5所示的13种模态和20多个对象。我们还将每个模态和物体所占的比例可视化，给读者一个直观的印象。

分类

分类是将给定图像分类为不同类别的过程，这些类别本质上是标签，以协助疾病诊断。我们使用X射线、扫描仪、MRI、皮肤镜、显微镜、相机、CT、OCT和多个序列来列出基于分割的任务，其中工作包含一种以上的形式。表1总结了基于transformer的分割应用。

分割

分割是将图像分割成各种子组或对象的过程。它可以看作是对图像中所有像素进行分类的过程。我们使用MRI, CT, x线，US，眼底相机，扫描仪，喉镜，结肠镜，和多个作品的序列列出了基于分割的任务。基于transformer的分段工作总结如表2所示。

除了主流的分类和分割任务，还有很多有前途的任务。在这里，我们阐述了基于transformer的应用，旨在合成、配准、定位、检测、字幕和去噪。这部分的总结见表3。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“T33” 就可以获取《新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

相关内容

医学图像

关注 84

医学影像是指为了医疗或医学研究，对人体或人体某部分，以非侵入方式取得内部组织影像的技术与处理过程。它包含以下两个相对独立的研究方向：医学成像系统（medical imaging system）和医学图像处理（medical image processing）。前者是指图像行成的过程，包括对成像机理、成像设备、成像系统分析等问题的研究；后者是指对已经获得的图像作进一步的处理，其目的是或者是使原来不够清晰的图像复原，或者是为了突出图像中的某些特征信息，或者是对图像做模式分类等等。