医学图像关键点检测深度学习方法研究与挑战

作为众多医学图像处理的前提和关键，医学图像关键点检测具有重要的理论研究和应用价值. 由于个体间差异性和个体内歧义性的影响，以及更高的临床应用定位精度的要求，医学解剖关键点检测面临着巨大的挑战.鉴于深度学习技术在医学图像关键点检测乃至整个医学图像处理领域都表现出了强大的实力，本文全面检索发表于顶级医学期刊和会议论文集中的医学图像关键点研究成果并进行了详细的梳理和综述. 从计算机视觉任务角度简述医学图像关键点检测及其存在的难点；总结了深度学习技术在医学图像关键点检测中的基本框架，详细论述了医学图像关键点检测的分类问题和回归分析两种不同类型的解决思路；最后探讨了医学图像关键点检测深度学习方法面临的挑战、主要应对策略和开放的研究方向.

http://www.ejournal.org.cn/CN/10.12263/DZXB.20200725

1. 引言

医学解剖学意义上的“关键点”定义为人体普遍具有特定特征的、位置和拓扑上存在对应关系的一些点或者曲线［1］ . 医学图像解剖学关键点的自动检测是医学图像处理研究领域中一个重要而活跃的课题，作为众多医学图像分析应用的前提基础，已被广泛用于医学图像配准［2~4］、组织分割［5~8］、参数测量［6，7，9，10］、病理诊断［1，11~16］以及治疗规划［17~20］、手术引导［21~24］或其他医学图像处理的初始化［25］等. 形式上，对应给定的医学图像 X，关键点检测算法预测关键点集合 L 的位置置 x = ，，其中 x· 、y· 和 z· 表示关键点坐标.

然而由于人体解剖结构的多样性，尤其是潜在局部相似关键点的情况下，精确而鲁棒的解剖学关键点定位变得充满挑战［26］ . 在过去的几十年里，医学图像关键点检测取得了较多的研究进展，当前主要的解决方案可以分为五大类，即基于知识、模式匹配、统计学习、混合技术和深度学习的方法 . 第一类是利用人类对关键点结构知识模拟手动检测过程［27，28］，但由于模式过于复杂，无法随图像复杂度的增加而制定规则 . 随后，一些研究人员采用了模式匹配搜索的策略［29，30］，但这类方法对个体间的差异异常敏感 . 考虑到全局空间约束和关键点位置局部信息的同等重要性，基于统计学习的关键点检测方法脱颖而出，如“主动形状模型”［31］和“主动外观模型”［32］，也出现了一些基于上述混合技术的方法［33］ . 在 IEEE ISBI 2014 和 Grand Challenge 2015 挑战赛中［19，20］，结合随机森林回归投票和统计形状分析技术的两个框架性能表现良好［17，18］ . 后续多个研究都以 Grand Challenge 数据集（https：//grand-chal⁃ lenge. org/）为基础开始了相关技术研究［34~36］ . 以上这些传统的检测方法超出了本文的讨论范围，如有兴趣可参考相关的研究论文.

最新的深度学习技术在计算机视觉领域取得了巨大的成功，激发了国内外学者们将其应用于医疗图像分析的研究热情，已在医学图像分类、检测、分割、配准和检索等方面表现出传统技术无法比拟的性能［37，38］，正如哈佛大学医学院Wells 教授给出的判断，应用深度学习解决医学图像分析任务是本领域的发展趋势［39，40］ . 自2016年开始，已有多位专家充分利用深度学习技术的多级语义自动学习特征，克服先前方法在特征定义和提取中的局限性，提出了多种用于医学关键点检测的有效解决方案. 在此基础上，本文依托于课题组在国家自然科学基金项目中的相关研究工作，聚焦于深度学习技术在医学图像关键点检测这一特定应用领域的研究现状和挑战，使用谷歌学术搜索引擎（https：//scholar. google. com/），设定检索主题词包括 medical images AND（landmark detection OR landmark localization OR landmark digitization），范围涵盖了医学图像处理领域顶级的期刊和知名的国际会议论文集（包括Medical Image Analysis等在内的多个刊源），以及最新发表在 arXiv网站上的论文，并逐一筛选出以深度学习技术重点解决医学图像关键点检测问题的文献 . 据知，这是第一份关于医学图像关键点检测的深度学习论文综述，相信这份清单对于相关领域的学习者或研究者而言将是一个很好的助力.

多个不同的关键点检测任务实例

2. 医学图像关键点检测深度学习方法的研究现状

医学图像关键点检测深度学习的方法广泛采用监督学习的方式，即利用一组关键点标注数据样本训练与调整深度学习网络的参数，使其达到所要求分类或者回归性能的过程 . 根据学习问题的类型可以将现有的医学图像关键点检测深度学习方法划分为两大类：一类利用像素点分类方式解决，另一类则是关键点坐标回归的方法 . 图 3 统计了这两类方法的研究论文数量，其中采用分类框架的方法远低于基于回归分析的研究，针对每一类方法的类型细分将在后续研究现状分析中给出更为详细的梳理与讨论.

基于分类的关键点检测方法

分类问题（Classification Problem）是有监督学习中的核心问题，用于解决要预测样本属于哪个或者哪些预定义的类别，此时输出变量通常取有限的离散值. 如何将关键点定位问题转化为分类问题，现有的基于深度学习的医学图像关键点检测方法提出了两种问题解决思路（图4）.

基于回归的关键点检测方法

回归分析（Regression Analysis）是确定两种或两种以上变量之间相互依赖的定量关系的统计分析方法. 回归分析侧重从定量关系的分析直接输出实数数值，而分类处理的输出通常为若干指定的类别标签 . 基于回归分析的关键点检测方法，依据学习网络回归输出数据类型的不同，可分为坐标值回归（Coordinate Regression）、热度图回归（Heat-Map Regression）和位移图回归（Displacement Regression）三种不同类别，图 5 给出了基于回归分析的关键点检测框架 . 回归网络将整幅图像或者图像块作为数据输入，由不同的 Ground Truth 设置不同的网络输出，对热度图和位移图一般再经过后处理获得关键点的坐标 .

定位评价指标与常用数据集

为了验证关键点检测的准确性，常用的点对点误差（Point-to-point Error for Landmark，PEL）衡量参数定义为

利用深度学习进行医学图像关键点检测时，获取大规模的学习训练样本数据集非常困难，且需要临床专家标注，因此目前公开可用的医学图像关键点检测数据集偏少，为了解决数据集的限制，可以从两个方面尝试解决大规模的医学数据标注样本数据的问题. 一方面，医学图像领域的挑战赛及大型公开数据集的出现对医学图像分析的发展有着极大的帮助，自 2007年以来，MICCAI、ISBI 和 SPIE 等医学成像研讨会组织挑战赛数据集已经成为惯例，开放了大量用于基准研究的医学数据集［56］，收录在网站http：//www. grandchallenge. org/. 另外通过追踪相关研究文献中研究者们给出的数据集，表2给出本文整理的可用于医学图像关键点检测的图像库及其链接.

3. 挑战与对策

深度学习技术以自动学习和应用多级语义特征，很大程度上克服了传统方法在特征定义和提取中的局限性，但基于深度学习的医学图像分析（特别的针对研究相对较少的医学图像关键点检测）上依然存在巨大挑战［55］ . 在上述研究现状分析的基础上，本文尝试将基于深度学习的医学图像关键点检测面临的挑战总结为以下三点：①通常只有数量有限的且带有医生标注的医学图像数据集可用，难以处理学习模型训练过程中的过拟合问题；②医学关键点高精度的检测需要综合应用医学图像多种信息，设计能够挖掘和综合应用多种信息的深度学习网络具有较大的难度；③医学图像（特别是 3D医学图像）数据量过大，规模巨大的网络模型参数对 GPU 内存提出了更高的要求，同时这也对关键点检测的实时性带来了更大的挑战 . 那么为了提高特征表示能力和关键点定位的准确性以满足临床的实际应用，当标注数据集样本量不足时该怎么处理？如何利用关键点的空间上下文信息（Spatial Context Infor⁃ mation）以及与医学图像处理的其他任务间的互补关系？如何降低医学图像数据量大对计算空间和时间的压力？目前，主要的应对策略如下文所述.

医学图像标注数据不足的对策

数据是深度学习算法研究所需的核心资源，深度学习方法在多个自然图像处理任务中的成功很大程度上归功于高达百万级别图像库的支撑，但医学图像由于疾病病例稀缺等，因此可获取的图像数量普遍偏少（一般在几十至几百数量级），而更高质量的医学图像标注将耗费大量人力和时间，因此在医学影像领域获取大量且具有高可靠性的标注数据是基于深度学习的医学图像处理研究的首要挑战. 针对这一挑战，Urschler等人［26］将关键点定位任务分为两个更简单的子问题，以减少对大型训练数据集的总体需求，实验结果证实了即使在可用训练图像数量有限的情况下，也可获得2D和3D医学图像关键点的良好定位性能. Zhang等人［6，7］采用两阶段的、面向任务的深度学习网络实现脑部图像关键点检测，同时使用数百万个图像块作为网络输入回归局部图像块和关键点之间的空间距离关系以进一步降低有限训练数据的影响. 类似地，Li等人［55］在网络训练时利用卷积神经网络学习图像块与解剖学关键点之间的空间关系，推理时PIN网络使用迭代地、稀疏地采样方法将图像块引导至目标关键点位置，实验采用 72 例人工标注图像进行网络的训练和性能测试，获得了 5.47 ± 4.23 mm 的定位误差. 从以上研究思路来看，并没有出现类似于处理自然图像数据量不足问题中常用的迁移学习、数据增广或者生成式对抗网络（Generative Adversarial Networks， GAN）样本生成等技术［57］，本文认为这正是由医学图像关键点检测中数据集特有的需求所决定，特征点标记是位于图像空间中一个精确的坐标向量，而非类似与目标分割、分类等问题中区域的标记 . 文献［50，51］倾向于将复杂的关键点定位问题分解为多个子问题，以降低有限数据训练大型网络的难度. 文献［36，58］结合了特殊应用中的医师注视点信息用于替代标注，这种方法与精确的数据标注还是存在较大的偏差，在一些对定位精度要求相对偏低的场合是一种选择 . 而文献［55］提出的 PIN模型的迭代优化思路（图 6）最为新颖，值得研究者参考和学习.

深度学习网络设计的对策

深度学习算法的设计归根结底是适用于特定应用场景需求的 CNN 网络架构的设计 . 如何定义网络的 “适用性”？本文认为，网络能够有效挖掘数据中可用于表示待解决特定问题信息的能力，是衡量网络适用性的唯一标准 . 针对这一问题，建议从三个角度思考：①人体组织存在较大的近似性，这就决定了关键点的空间信息具有相当固定的关系，形成了特有的空间上下文信息，在设计提取关键点局部信息的同时应更加重视空间关系的全局信息；②采用更加符合人类认知过程的多阶段关键点检测网络，将关键点检测任务划分为从粗略到精细的推理过程，以提高检测的正确性和精准度；③合理结合医学图像处理的其他任务，设计多任务处理的学习网络.

医学图像计算量大的对策

利用小型数据集中训练诸如CNN等网络是一项艰巨的任务，另外医学图像数据量过大易于造成网络学习的过拟合问题，再者也会需要更大容量的 GPU 存储方可实现网络的训练和推理. 因此，难以以端到端的方式利用有限的医学成像数据实现准确的医学关键点检测模型的训练 . 如何有效解决医学图像对深度学习算法带来的训练与计算困难也是研究者们无法回避的问题. 一方面，通过多种图像降采样方式降低图像数据量的大小. 另一方面，可选择更为轻量级的深度学习网络作为特征提取的主干网络，以解决使用类似 V-Net 的体系结构对大量关键点检测时遇到的内存问题 .

4. 开放的研究方向思考与探讨

深度学习方法有效促进了不同尺度和不同任务信息之间的融合，使得信息的结合方式由平面开始向立体方法发展，对于医学图像关键点检测模型的发展具有突出的实际意义. 正因为如此，本文对医学图像关键点检测的深度学习方法进行了梳理和综述 . 从本文筛选出的在此研究领域具有特别贡献的论文研究成果可知，研究者们结合各自的医学应用需求开展的特定医学图像上的关键点深度学习检测算法中，大多有意识地去解决医学标注数据少、医学图像数据量大对 CNN 网络带来的训练与预测中的问题，并取得了良好的检测与定位性能（需要注意的是，由于各自任务目标、数据等不具有统一对比性，这里并未给出关键点定位精度的统计）. 尽管已经取得了良好的检测效果，但进一步提高医学解剖关键点的检测精度并将实现研究成果的临床应用还有较长的路要走 . 本文作者结合自身在这个领域的研究经验对其存在的关键难题和开放的研究方向给出一些思考和讨论：①医学图像关键点个体间差异性和个体内歧义性的固有特征无法回避，在这种情况下要实现高精度医学关键点检测，就需要建立一个充分挖掘医学图像关键点信息并能够综合应用信息的最优深度学习网络框架，同时考虑可用的小规模医学图像数据集对网络规模的限制；②深度学习只是解决问题的一种方法，同样存在各种各样的局限性，在很好地把握深度学习方法优劣势的基础上，能够结合几十年累积起来的经典的图像处理方法和思路不失为明智的选择，同时还要关注能对医学图像关键点检测带来启发的其他计算机视觉、机器学习领域的新成果.

成为VIP会员查看完整内容