港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

2022 年 9 月 22 日 专知

在过去的几年里，计算机视觉深度学习技术的快速发展极大地提升了医学图像分割(MedISeg)的性能。然而，最近的MedISeg出版物通常专注于主要贡献的介绍(例如，网络架构、训练策略和损失函数)，而无意中忽略了一些边缘实现细节(也称为“技巧”)，导致了不公平的实验结果比较的潜在问题。本文收集了一系列MedISeg的技巧，适用于不同的模型实现阶段(即模型实现阶段)。分别是预训练模型、数据预处理、数据增强、模型实现、模型推理和结果后处理)，并通过实验探讨了这些技巧在一致性基线模型上的有效性。通过在具有代表性的二维和三维医学图像数据集上的大量实验结果，我们明确阐明了这些技巧的效果。此外，基于所综述的技巧，我们还开放了一个强大的MedISeg存储库，其中每个组件都具有即插即用的优势。我们相信，这一里程碑式的工作不仅完成了对最先进的MedISeg方法的全面和补充调研，而且为解决未来医学图像处理的挑战提供了实用指南，包括但不限于小数据集学习、类不平衡学习、多模态学习和领域适应。代码已在:MedISeg发布。

https://www.zhuanzhi.ai/paper/0ba1c2c9f04d29f946c9ecb25821202e

引言

医学图像分割(MedISeg)是计算机视觉和医学图像分析领域最具代表性和综合性的研究课题之一。它不仅能识别物体类别，还能定位出像素级的位置[4]-[9]。在临床实践中，MedISeg已成功应用于定性和定量分析的广泛潜在应用领域，如癌症诊断[10]、肿瘤变化检测[11]、治疗计划[12]和计算机集成手术[13]。为了实现令人满意的分割性能，关键挑战之一是使分割模型能够学习一组丰富而具有鉴别性的特征表示[14]-[17]。

近年来，由于图像处理深度学习技术[17]-[21]的显著进步，MedISeg的性能有了很大的提高[5]、[22]-[29]。高级骨干(如AlexNet [30]， VGG [31]， ResNet [18]， DenseNet [21]， MobilNet [32]， ShuffleNet [33]， ResNeXt [34] HRNet [35]， RegNet [36]， ViT [37]， SwinTransformer [38]， CMT [39]， ConFormer [40]， CvT[41])天生可以学习丰富的语义特征表示，直接促进MedISeg的识别能力。某些详细的特征规则(例如，横向连接[42]、残差映射[18]、[21]、编码器-解码器方案[43]、[44]、密集连接[8]、特征金字塔[45]和全局上下文聚合[46]、[47])也可以提高性能。将这些复杂的元素集成到统一的MedISeg系统中是MedlSystem性能如此良好的主要原因。此外，一些训练策略(如联合训练[48]、[49]、联合教学[50]、[51]、联合学习[52]、[53]、测试时间训练[54]、[55])和一些成熟的损失函数(如交叉熵损失、骰子损失、Lovasz-softmax损失[56]、[57])也是影响模型性能[58]、[59]不可或缺的组成部分。

然而，进展的迹象不是单独提出的，它们通常与现有的实现混合在一起[60]，[61]。特别是，目前，一个完整的MedISeg系统通常由大量的实现细节(包括一些非学习模型无关的预处理过程)组成，以实现理想的最先进的识别性能[5]，[62]-[65]。不幸的是，官方出版物中很少有边缘实现描述(也称为“技巧”)，或者只在发布的代码中介绍(在补充材料中有一些)。例如，如图1所示，在流行的ResNet[18]体系结构(通常被视为MedISeg模型的主流骨干网)的修改输入干中，使用三个累积的3 × 3卷积层(图1 (b))来取代输入干中原来的7×7卷积层(图1 (a))，以减少计算成本[66]-[68]。尽管这种细微的变化可以显著提高[21]，[61]，[69]，[70]的准确性，但很少有出版物明确提及这一点。因此，将基于这种修改后的实现的性能与基于原始实现的性能进行比较本质上是不公平的。

细节决定成败。在这项工作中，为了揭示技巧对MedISeg模型(如图2所示)的影响，根据一套完整的实现阶段，包括预训练模型(参考3.1节)、数据预处理(参考3.2节)、数据增强(参考3.3节)、模型实现(参考3.4节)、模型推断(参考3.5节)和结果后处理(参考3.6节)，我们首先收集了一系列在当前的MedISeg模型中被忽略的实用的和有代表性的技巧。然后，借助代表性卷积神经网络(CNNs)骨干网，在包括典型2D-UNet[43]和3D-UNet[71]在内的一致分割基线模型上实验探索这些技巧的有效性，从而避免模型变量的影响(即由于模型变化而导致的性能变化)。相比于现有论文驱动的技术调研，只平淡地关注图像分割模型的优点和局限性分析，我们的工作提供了大量的扎实的实验结果，在技术上更具有可操作性。基于四种医学图像数据集(即具有挑战性的2D ISIC 2018病灶边界分割数据集[72]、2D结肠核识别和计数挑战数据集[73]、[75]、3D肾脏肿瘤分割2019数据集[74]和3D肝脏肿瘤分割挑战数据集[63])上的大量实验结果，我们明确阐明了这些技巧的效果。此外，基于所调研的技巧和使用的基线模型，我们还开放了一个强大的MedISeg存储库，其中每个组件都具有即插即用的优势。相信这一里程碑式的工作不仅完成了最先进的MedISeg方法的全面技术调研，而且为解决未来医学图像处理(特别是密集图像预测任务)的挑战(包括小数据集学习、类不平衡学习、多模态学习和领域适应)提供了实用指南。

这项工作的主要贡献可以概括如下:

我们为不同的实现阶段收集了一系列MedISeg技巧，并通过实验探索了这些技巧在一致的CNN基线模型上的有效性。
我们明确阐明了这些技巧的有效性，并且在2D和3D医学图像数据集上大量可靠的实验结果弥补了MedISeg中实施疏忽。
我们开源了一个强大的MedISeg存储库，其中包括丰富的分割技巧，每个都有即插即用的优势。
这项里程碑式的工作将促进后续在公平环境下比较MedISeg模型的实验结果。
该工作将为今后医学图像处理特别是分割挑战提供实际指导。

在第二节中，我们首先介绍了初步的实验设置，包括基线模型、实验设置、使用的数据集和评价指标。在第3节中，我们根据顺序训练阶段介绍了收集到的技巧，并提供了广泛的实验结果和详细的实验分析。在第四部分中，对整篇论文包括这一任务所面临的挑战进行了全面的讨论。最后，在第五部分，我们给出了一个结论，并指出了潜在的方向。

图3。在一些实验样本中，(a)中的图像来自2D ISIC 2018[72]训练集，(b)中的图像是渲染场景和分割轴向切片，来自3D肾肿瘤分割2019数据集[74]，(c)中的图像来自2D结肠核识别和计数挑战数据集[75]，(d)中的图像来自3D肝肿瘤分割挑战数据集[63]。(图片来自发布的数据集或其官方网站)。

结论

我们为不同的实现阶段收集了一组MedISeg技巧，即预训练模型、数据预处理、数据增强、模型实现、模型推断和结果后处理。这些技巧几乎涵盖了用于医学图像分割任务的所有常见和基本方案;其他精细的技巧可以被看作是这些技巧更复杂的组合。在我们的工作中，为了避免实现变化带来的性能模糊性，我们在一致的2D-UNet[43]和3D-UNet[71]基线模型上实验探索了收集到的技巧的有效性。通过在2D ISIC 2018[72]、2D CoNIC[73]、[75]、[95]、3D KiTS19[74]和3D LiTS[63]上的实验结果，我们明确地阐明了这些技巧的效果。此外，基于调研的技巧和基线模型，为2D和3D医学图像开源了一个强大的MedISeg库，其中每个组件都具有即插即用的优势。与现有的纸质细分调查[10]，[77]，[144]，[145]，[159]，[163]，[170]，[195]相比，我们的工作可以提供广泛的实验，在技术上更具可操作性。我们工作的一个重要贡献是明确地探索这些收集的技巧的效果。我们的工作既能促进后续方法的注意力技巧，又能达到比较公平的结果。这可能是必要的，特别是在当前，面对一些复杂的任务，网络架构变得越来越复杂，例如，图像分割[180]，[184]，目标检测[45]，[176]，和图像生成[77]，[112]。此外，当我们将所有常用的技巧整合到一个统一的框架中[61]时，MedISeg模型中的技巧之间可能存在实现上的冲突或抵消，这可以为即将到来的分割管道提供经验和协调的指导，包括网络架构、训练策略和损失函数。

未来我们将在以下几个方面进行工作: (1)在MedISeg上调研和开发更多的技巧。在临床实践中，我们经常面临非常复杂的情况，而MedISeg是一个与实践紧密结合的基础研究课题。因此，在现有的基础上继续探索和开发一些更先进的MedISeg技巧，以满足不同问题的要求，具有很大的实用价值和意义。(2) 继续探索技巧在更多方法和数据集上的有效性。在少量有限的数据集上的实验结果不可避免地存在偏差。特别是在面对MedISeg问题时，内部类的不同图像类型、分布和发散会影响特定技巧的有效性。为了使实验结果的比较更加全面和公正，有必要进行全面的技术调研。(3) 探索受技巧启发的模型设计。虽然在现有的出版中技巧很容易被忽略，但它们包含的原理和思想可以用来启发后续的工作，以实现更便宜和计算友好的模型设计。(4) 探索基于注意力的技巧。近年来，视觉transformer框架通过多头注意力机制具有很强的特征表示能力，在计算机视觉和医学图像分析领域受到越来越多的关注。然而，由于视觉transformer内部结构复杂，实践应用尚不成熟(特别是面对小数据集时)，其进一步的应用还有待探索。因此，对视觉transformer框架进行技巧研究也是很有价值的。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“C424” 就可以获取《【MIT博士论文】非参数因果推理的算法方法，424页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

相关内容

医学图像

关注 80

医学影像是指为了医疗或医学研究，对人体或人体某部分，以非侵入方式取得内部组织影像的技术与处理过程。它包含以下两个相对独立的研究方向：医学成像系统（medical imaging system）和医学图像处理（medical image processing）。前者是指图像行成的过程，包括对成像机理、成像设备、成像系统分析等问题的研究；后者是指对已经获得的图像作进一步的处理，其目的是或者是使原来不够清晰的图像复原，或者是为了突出图像中的某些特征信息，或者是对图像做模式分类等等。