在现代机器学习中,海量数据通常来源于多样且分布式的源头,这使得分布式训练成为一种核心范式,尤其适用于诸如联邦学习(Federated Learning, FL)等大规模应用场景。然而,在分布式训练中存在两大关键挑战:提升通信效率以及保护训练过程中使用的敏感数据的隐私。本论文针对这两个挑战,深入探讨了通信效率、差分隐私与优化算法之间的相互关系,这些要素对于实现可扩展、高效且具备隐私保护能力的分布式学习至关重要。 我们首先针对分布式优化中的通信效率问题,提出了 Rand-Proj-Spatial 方法——一种基于稀疏化的、通信高效的分布式向量均值估计器。该方法利用子采样随机哈达玛变换(Subsampled Randomized Hadamard Transform, SRHT)进行随机投影,从而在客户端间挖掘相关性,相较于传统稀疏化方法,在估计精度与通信成本之间实现了更优平衡。 随后,我们聚焦于预测任务中的差分隐私问题,提出了 DaRRM 框架,一种统一的私有多数集成(private majority ensembling)方法。DaRRM 通过优化一个数据依赖型的噪声函数,在满足固定隐私预算的前提下提升算法实用性,在私有图像分类任务中表现出强劲的实验性能。 最后,我们考察了差分隐私与优化之间的耦合关系,分析了现有 差分隐私打乱梯度(DP-ShuffleG) 方法在解决私有经验风险最小化(ERM)问题时的局限性,并提出了一种混合算法 Interleaved-ShuffleG。该方法引入公开数据以降低经验过度风险,并通过新颖的理论分析与跨多个数据集和基准的优越实证结果加以支持。 综上所述,本论文在通信效率与隐私保护优化算法的理解与设计方面取得了重要进展,为构建可扩展、安全的分布式学习系统提供了理论基础与实践路径。