Incorporating over-the-air computations (OAC) into the model training process of federated learning (FL) is an effective approach to alleviating the communication bottleneck in FL systems. Under OAC-FL, every client modulates its intermediate parameters, such as gradient, onto the same set of orthogonal waveforms and simultaneously transmits the radio signal to the edge server. By exploiting the superposition property of multiple-access channels, the edge server can obtain an automatically aggregated global gradient from the received signal. However, the limited number of orthogonal waveforms available in practical systems is fundamentally mismatched with the high dimensionality of modern deep learning models. To address this issue, we propose Freshness Freshness-mAgnItude awaRe top-k (FAIR-k), an algorithm that selects, in each communication round, the most impactful subset of gradients to be updated over the air. In essence, FAIR-k combines the complementary strengths of the Round-Robin and Top-k algorithms, striking a delicate balance between timeliness (freshness of parameter updates) and importance (gradient magnitude). Leveraging tools from Markov analysis, we characterize the distribution of parameter staleness under FAIR-k. Building on this, we establish the convergence rate of OAC-FL with FAIR-k, which discloses the joint effect of data heterogeneity, channel noise, and parameter staleness on the training efficiency. Notably, as opposed to conventional analyses that assume a universal Lipschitz constant across all the clients, our framework adopts a finer-grained model of the data heterogeneity. The analysis demonstrates that since FAIR-k promotes fresh (and fair) parameter updates, it not only accelerates convergence but also enhances communication efficiency by enabling an extended period of local training without significantly affecting overall training efficiency.


翻译:将空中计算(OAC)融入联邦学习(FL)的模型训练过程,是缓解FL系统通信瓶颈的有效途径。在OAC-FL框架下,每个客户端将其中间参数(如梯度)调制到同一组正交波形上,并同时向边缘服务器发送无线电信号。通过利用多址信道的叠加特性,边缘服务器能够从接收信号中自动获取聚合后的全局梯度。然而,实际系统中有限的正交波形数量与现代深度学习模型的高维度特性存在根本性不匹配。为解决这一问题,我们提出了新鲜度-幅度感知Top-k(FAIR-k)算法,该算法在每一轮通信中选择最具影响力的梯度子集进行空中更新。本质上,FAIR-k结合了轮询(Round-Robin)与Top-k算法的互补优势,在参数更新的及时性(新鲜度)与重要性(梯度幅度)之间实现了精妙的平衡。借助马尔可夫分析工具,我们刻画了FAIR-k下参数陈旧度的分布特性。在此基础上,我们建立了采用FAIR-k的OAC-FL收敛速率分析框架,揭示了数据异构性、信道噪声与参数陈旧度对训练效率的联合影响。值得注意的是,不同于传统分析中假设所有客户端采用统一的Lipschitz常数,我们的框架采用了更细粒度的数据异构性建模。分析表明,由于FAIR-k促进了新鲜(且公平)的参数更新,它不仅能够加速收敛,还能通过延长本地训练周期而不显著影响整体训练效率,从而提升通信效率。

0
下载
关闭预览

相关内容

6G中联邦学习的应用、挑战和机遇
专知会员服务
52+阅读 · 2022年3月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员