摘要— 人工智能(AI)在医学影像领域展现出巨大的潜力。然而,高性能 AI 模型的开发通常需要在大规模的集中式数据集上进行训练。这种方式由于严格的患者隐私保护法规以及数据共享与使用的法律限制而面临严峻挑战。这些限制阻碍了医学领域大规模模型的开发,并妨碍了其在新数据上的持续更新与训练。联邦学习(Federated Learning,FL)作为一种保护隐私的分布式训练框架,提供了一种新方案,使得跨分散的医学数据集协作开发模型成为可能。在本综述中,我们回顾了 FL 在医学影像全栈分析流程中两个阶段的贡献。首先,在上游任务(如 CT 或 MRI 重建)中,FL 能够在多机构、多样化的数据集上联合训练鲁棒的重建网络,从而在保持数据机密性的同时缓解数据稀缺问题。其次,在下游临床任务(如肿瘤诊断与分割)中,FL 通过允许在本地对新数据进行微调而无需集中敏感影像,从而支持模型的持续更新。我们全面分析了 FL 在医学影像处理流程中的实现方式,从基于物理知识的重建网络到诊断 AI 系统,并重点介绍了提升通信效率、对齐异构数据以及确保参数安全聚合的创新方法。同时,本文还展望了未来的研究方向,旨在为该领域的发展提供有价值的参考。

关键词— 联邦学习,医学影像,医学影像分析,大模型

I. 引言 近年来,人工智能(AI)的快速发展在诸多领域展现出了巨大的潜力 [1]–[3]。图 1 展示了医学影像分析与重建的发展演变,突出了该领域的关键进展。在医学影像中,AI 技术正日益重塑现代影像分析与处理方法 [4]。然而,大多数现有 AI 方法仍然依赖于数据驱动,并需要大规模、高质量且具备良好标注的数据集进行训练 [5], [6]。医学影像标注通常需要由放射科医师或病理学家等领域专家手工完成,这一过程不仅耗费巨大成本,而且极其耗时 [7]。

与医学影像不同,自然图像的标注可以由非专家完成:众包工作者能够处理如目标检测、分类和分割等常规任务。这种标注的便利性使得可以通过众包平台快速构建大规模数据集。相比之下,医学影像必须依赖训练有素的放射科医师或临床医生,从而在速度与规模上天然受到限制。更为复杂的是,医学影像中包含的敏感患者信息受隐私法律、存储限制以及机构数据治理政策的约束 [8]。因此,那些推动通用计算机视觉领域大模型成功的关键因素——丰富的数据与开放共享——在医学领域几乎完全缺失。因此,在保护患者隐私的同时缓解数据稀缺问题,成为亟需解决的核心瓶颈,也是重要的创新方向。

跨多个数据持有者的协作式机器学习,以数据隐私保护为重点,已经引起学术界与产业界的广泛关注。为实现隐私保护的机器学习,McMahan [9] 提出了联邦学习(Federated Learning,FL),即分布式学习框架 FedAvg。由于其内在的隐私保护特性,FL 已在多个场景中得到广泛应用 [10]。在 FL 中,各客户端使用本地数据独立训练模型,并将模型参数或梯度上传至中心服务器。服务器聚合这些更新以优化全局模型,然后将其分发回客户端,进入后续训练迭代。在整个过程中,客户端数据始终保留在本地,仅有模型参数或梯度更新会被传输到中心服务器。该机制有效缓解了数据泄露风险,并增强了隐私保护能力 [11]。

在智能医疗系统中,工作流程通常包括上游的医学影像重建与下游的影像分析任务 [12]。然而,数据异质性的性质与影响在这两类任务中存在显著差异。医学影像重建主要关注从低质量或不完整的影像数据中恢复高质量图像 [13]。例如,由于 X 射线辐射可能造成的危害,临床协议往往要求在检查中降低辐射剂量,但这种降低不可避免地导致影像质量下降。

在低剂量(LD)计算机断层扫描(CT)中,不同医疗机构可能使用不同的扫描仪型号或低剂量协议(如扫描角度、X 射线光子强度),从而产生不同的噪声分布模式 [14]。这种数据分布不一致性阻碍了传统深度学习模型在不同临床环境中的泛化能力,从而影响重建的稳定性与精度。

相较之下,磁共振成像(MRI)通常采用加速采集协议以缩短扫描时间并提升患者舒适度。然而,MRI 扫描仪硬件配置(如磁场强度、信号采集协议)的差异,以及不同机构所使用的重建算法,共同导致了 MRI 数据的异质性 [15]。

医学影像分析中的数据异质性主要来源于三个基本因素:(1) 医院人群在人口学分布上的差异 [16];(2) 组织病理学数据处理协议的差异 [17];(3) 疾病流行率比例的不平衡 [18]。具体而言,个体因素(如年龄、性别和种族)会造成解剖学变异及病灶特征的多样性;同时,不同的组织病理学制备方法(包括染色协议与数字扫描设备)会进一步导致数据分布的偏移。此外,疾病在不同机构间的流行率差异显著:专科医院通常聚焦于特定疾病群体,而综合性医院则服务于更为多样化的人群,且不同医疗中心的疾病严重程度也各不相同。

因此,在影像重建与分析任务中应对数据异质性 [19] 已成为医学影像分析的关键研究前沿。主要挑战在于如何在 FL 过程中同时缓解因优化轨迹差异导致的模型漂移,并提升 AI 模型跨机构的泛化能力。为应对这些挑战,本综述从技术角度分析了针对成像导向型与分析驱动型 FL 框架的最新解决方案。

近年来,已有若干关于医学影像中 FL 的综合性综述。例如,Guan 等 [20] 提供了一份系统综述,将医学影像分析中的 FL 方法划分为客户端、服务器端与通信技术三类。Hernandez-Cruz 等 [21] 同样综述了医学影像中的 FL 研究,强调了其在心脏病学、皮肤病学和肿瘤学等领域的应用,以及如非独立同分布(non-IID)数据和隐私保护等反复出现的挑战。Silva 等 [22] 针对医学影像模态(MRI、CT、X 射线、组织学)提供了一份系统综述,讨论了 FL 在这些领域的应用、贡献、局限性与挑战。Wang 等 [23] 专门研究了 FL 在罕见疾病检测中的应用,总结了该细分方向中的现有 AI 技术与可用数据集。在相关领域,Shi 等 [24] 探讨了医学影像分析中基础模型的可信性问题,这一主题通过关注隐私、鲁棒性与公平性,与 FL 综述形成互补。最后,Raza 等 [25] 基于 PRISMA 方法对放射组学中的 FL 进行了元综述,汇总了肿瘤检测、器官分割与疾病分类任务中的研究趋势。

尽管这些综述提供了宝贵的见解,但其覆盖范围往往未能涵盖整个影像处理流程。现有综述通常将图像重建、分割与诊断作为相互独立的主题进行考察,而非作为联邦学习工作流中相互关联的阶段。此外,在整个影像链条中,关于新兴大规模医学基础模型与先进数据压缩技术如何与 FL 融合的系统性研究仍然有限。本文旨在弥补这些空白。我们聚焦于在端到端医学影像流程中引入 FL,从物理驱动的图像重建到下游分析任务。同时,我们探索将大规模视觉模型与高效数据压缩技术纳入适配 FL 框架的机会,从而支撑这一完整工作流。表 I 总结了与以往综述的对比,凸显了本文综述的广阔覆盖范围。

本文其余部分组织如下:第二节介绍 FL 工作流并概述相关挑战;第三节回顾医学影像重建中的 FL 研究;第四节分析医学影像分析中的 FL 应用;第五节阐述持续存在的技术瓶颈与临床实施挑战,并提出未来研究方向;最后,总结本文的关键发现与贡献。

成为VIP会员查看完整内容
0

相关内容

联邦图学习的全面数据中心化综述
专知会员服务
22+阅读 · 7月23日
持续强化学习研究综述
专知会员服务
39+阅读 · 6月30日
面向医学的多模态大型语言模型:全面综述
专知会员服务
22+阅读 · 5月1日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
31+阅读 · 3月7日
谱聚类与图结构学习的全面综述
专知会员服务
19+阅读 · 1月25日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
42+阅读 · 1月16日
大型语言模型疾病诊断综述
专知会员服务
31+阅读 · 2024年9月21日
迈向通用工业智能:工业物联网增强的持续大模型综述
专知会员服务
50+阅读 · 2024年9月4日
「基于通信的多智能体强化学习」 进展综述
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
480+阅读 · 2023年3月31日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
联邦图学习的全面数据中心化综述
专知会员服务
22+阅读 · 7月23日
持续强化学习研究综述
专知会员服务
39+阅读 · 6月30日
面向医学的多模态大型语言模型:全面综述
专知会员服务
22+阅读 · 5月1日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
31+阅读 · 3月7日
谱聚类与图结构学习的全面综述
专知会员服务
19+阅读 · 1月25日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
42+阅读 · 1月16日
大型语言模型疾病诊断综述
专知会员服务
31+阅读 · 2024年9月21日
迈向通用工业智能:工业物联网增强的持续大模型综述
专知会员服务
50+阅读 · 2024年9月4日
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员