在现代机器学习中,海量数据通常来源于多样且分布式的源头,这使得分布式训练成为一种核心范式,尤其适用于诸如联邦学习(Federated Learning, FL)等大规模应用场景。然而,在分布式训练中存在两大关键挑战:提升通信效率以及保护训练过程中使用的敏感数据的隐私。本论文针对这两个挑战,深入探讨了通信效率、差分隐私与优化算法之间的相互关系,这些要素对于实现可扩展、高效且具备隐私保护能力的分布式学习至关重要。 我们首先针对分布式优化中的通信效率问题,提出了 Rand-Proj-Spatial 方法——一种基于稀疏化的、通信高效的分布式向量均值估计器。该方法利用子采样随机哈达玛变换(Subsampled Randomized Hadamard Transform, SRHT)进行随机投影,从而在客户端间挖掘相关性,相较于传统稀疏化方法,在估计精度与通信成本之间实现了更优平衡。 随后,我们聚焦于预测任务中的差分隐私问题,提出了 DaRRM 框架,一种统一的私有多数集成(private majority ensembling)方法。DaRRM 通过优化一个数据依赖型的噪声函数,在满足固定隐私预算的前提下提升算法实用性,在私有图像分类任务中表现出强劲的实验性能。 最后,我们考察了差分隐私与优化之间的耦合关系,分析了现有 差分隐私打乱梯度(DP-ShuffleG) 方法在解决私有经验风险最小化(ERM)问题时的局限性,并提出了一种混合算法 Interleaved-ShuffleG。该方法引入公开数据以降低经验过度风险,并通过新颖的理论分析与跨多个数据集和基准的优越实证结果加以支持。 综上所述,本论文在通信效率与隐私保护优化算法的理解与设计方面取得了重要进展,为构建可扩展、安全的分布式学习系统提供了理论基础与实践路径。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【伯克利博士论文】高效深度学习推理的全栈方法
专知会员服务
31+阅读 · 2024年12月22日
【斯坦福博士论文】非平稳环境中的深度强化学习算法
专知会员服务
28+阅读 · 2024年12月9日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
34+阅读 · 2024年10月30日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
172+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员