2022年博士论文《基于分布式学习的最优放射组学知识获取》马斯特里赫特大学，179pdf

引言

人工智能（AI）

人工智能 (AI) 是计算机科学的一个领域，旨在复制或模拟人类学习的认知能力。 AI 由运行在功能强大的计算机上的机器和深度学习算法提供支持，旨在提供快速准确的输出 [1]。

机器学习是人工智能的一个子领域，可以检测和优化数据中的重要特征，以表征预定义的结果。在医疗保健领域，数据来源于多种来源：

• 临床数据：源自常规临床工作流程的特征（例如，年龄、身高、体重等）。

• 定量成像数据，也称为放射组学：源自医学图像，例如 CT、MR、PET 和超声。放射组学特征可以分为四种特征类型：强度、形状、纹理和小波。

• 基因组数据：来源于生物体的DNA/RNA 信息，主要用于确定基因的功能。

机器学习可以单独研究这些数据类型中的每一种，也可以将它们全部或部分耦合起来[2,3]。在医疗保健研究中，机器学习通过促进临床决策 [4,5] 极大地促进了诊断和预后过程的改善。

深度学习是机器学习的一个子领域，其功能受到人脑的启发。它使用具有多个嵌入层的神经网络，这些层封装了大量可以从数据中提取有用特征的神经元。已经提出了不同的架构来执行不同的任务并提高性能[6]。深度学习在医疗保健研究中引起了极大的兴趣。在放射学领域，人们的兴趣主要是使大量手动过程自动化，例如图像分类、分割以及异常检测和分类[7]。

分布式学习

数据是推动科研领域和工业领域人工智能发展的关键要素。在这种情况下，可用于训练和验证 AI 模型的优质数据越多，从中得出的结果就越准确。出于这个原因，数据收集和共享是每个人工智能项目的重要组成部分。然而，最近保护个人数据的法律和道德考虑因素，例如欧洲通用数据保护条例 (GDPR) 和美国的健康保险可移植性和责任法案 (HIPAA)，使得数据收集过程具有挑战性、耗时且成本高昂 [8, 9]。从分布式数据中学习的多中心人工智能研究有可能应对这些挑战。这种方法被称为分布式学习，其中以机器学习或深度学习模型为特征的 AI 模型，从分布在合作伙伴网络中的孤立数据中迭代或同时学习 [10-13]。分布式学习可以在保护隐私的同时实现大规模数据访问。文献中报道的传统分布式学习框架（在本论文之前）都依赖于一个中央服务器来协调网络中的学习。这种设计存在1）信任问题，因为所有合作伙伴都需要盲目信任管理服务器的实体，2）源于模型中心化的可追溯性问题，因此合作伙伴没有透明的监控系统来评估其余网络合作伙伴的参与。

为了克服与传统分布式学习设计相关的问题，我们提出了一个完全去中心化的分布式学习框架。我们通过集成公共区块链 (Ethereum) 来实现完全去中心化，这是一种点对点 (P2P) 框架，可在网络上实施信任、不变性、透明度、可追溯性和安全性。在本论文中，我们：

首先，识别传统的分布式学习和顺序学习与区块链技术相结合，即链式分布式机器学习（C-DistriM），如图 1.1 所示。

图 1.1：A.传统分布式学习：所有伙伴都连接到一个服务器，该服务器 1）初始化学习，2）每个伙伴在本地数据上训练模型的一部分，3）每个伙伴向服务器提供模型参数， 4）服务器聚合参数，5）与合作伙伴共享更新的参数，6）每个合作伙伴使用更新的参数重新训练本地模型并将它们发送回服务器进行更新，7）重复此过程直到满足收敛标准。B.去中心化顺序分布式学习：每个合作伙伴都持有区块链的副本，这使得学习历史可供所有人使用，1) 训练由连接到系统的第一个合作伙伴发起，2) 一旦本地模型训练完成结束后，下一个合作伙伴可以开始更新之前的模型，4) 重复此过程，直到所有合作伙伴完成更新模型。