In federated learning (FL), models must \emph{converge quickly} under tight communication budgets while \emph{generalizing} across non-IID client distributions. These twin requirements have naturally led to two widely used techniques: client/server \emph{momentum} to accelerate progress, and \emph{sharpness-aware minimization} (SAM) to prefer flat solutions. However, simply combining momentum and SAM leaves two structural issues unresolved in non-IID FL. We identify and formalize two failure modes: \emph{local-global curvature misalignment} (local SAM directions need not reflect the global loss geometry) and \emph{momentum-echo oscillation} (late-stage instability caused by accumulated momentum). To our knowledge, these failure modes have not been jointly articulated and addressed in the FL literature. We propose \textbf{FedWMSAM} to address both failure modes. First, we construct a momentum-guided global perturbation from server-aggregated momentum to align clients' SAM directions with the global descent geometry, enabling a \emph{single-backprop} SAM approximation that preserves efficiency. Second, we couple momentum and SAM via a cosine-similarity adaptive rule, yielding an early-momentum, late-SAM two-phase training schedule. We provide a non-IID convergence bound that \emph{explicitly models the perturbation-induced variance} $σ_ρ^2=σ^2+(Lρ)^2$ and its dependence on $(S, K, R, N)$ on the theory side. We conduct extensive experiments on multiple datasets and model architectures, and the results validate the effectiveness, adaptability, and robustness of our method, demonstrating its superiority in addressing the optimization challenges of Federated Learning. Our code is available at https://github.com/Huang-Yongzhi/NeurlPS_FedWMSAM.


翻译:在联邦学习(FL)中,模型必须在严格的通信预算下实现快速收敛,并在非独立同分布(non-IID)的客户端分布上保持良好的泛化能力。这两项要求自然催生了两种广泛应用的技术:客户端/服务器动量以加速训练进程,以及锐度感知最小化(SAM)以寻求平坦解。然而,在非独立同分布的联邦学习场景中,简单结合动量与SAM仍存在两个结构性缺陷未能解决。我们识别并形式化了两种失效模式:局部-全局曲率失配(局部SAM方向未必反映全局损失几何特性)与动量回波振荡(由累积动量导致的后期训练不稳定)。据我们所知,这些失效模式尚未在联邦学习文献中被共同阐明与解决。我们提出FedWMSAM以同时应对这两种失效模式。首先,我们通过服务器聚合的动量构建动量引导的全局扰动,使客户端的SAM方向与全局下降几何对齐,实现了保持高效性的单次反向传播SAM近似。其次,我们通过余弦相似度自适应规则耦合动量与SAM,形成早期动量主导、后期SAM主导的两阶段训练策略。在理论层面,我们给出了非独立同分布场景下的收敛界,显式建模了扰动引起的方差σ_ρ^2=σ^2+(Lρ)^2及其对(S, K, R, N)参数的依赖关系。我们在多个数据集与模型架构上进行了广泛实验,结果验证了本方法的有效性、适应性与鲁棒性,展现了其在应对联邦学习优化挑战方面的优越性。代码已发布于https://github.com/Huang-Yongzhi/NeurlPS_FedWMSAM。

0
下载
关闭预览

相关内容

动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。 动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
专知会员服务
41+阅读 · 2021年6月19日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员