Communication remains a central bottleneck in large-scale distributed machine learning, and gradient sparsification has emerged as a promising strategy to alleviate this challenge. However, existing gradient compressors face notable limitations: Rand-$K$ discards structural information and performs poorly in practice, while Top-$K$ preserves informative entries but loses the contraction property and requires costly All-Gather operations. In this paper, we propose ARC-Top-$K$, an {All-Reduce}-Compatible Top-$K$ compressor that aligns sparsity patterns across nodes using a lightweight sketch of the gradient, enabling index-free All-Reduce while preserving globally significant information. ARC-Top-$K$ is provably contractive and, when combined with momentum error feedback (EF21M), achieves linear speedup and sharper convergence rates than the original EF21M under standard assumptions. Empirically, ARC-Top-$K$ matches the accuracy of Top-$K$ while reducing wall-clock training time by up to 60.7\%, offering an efficient and scalable solution that combines the robustness of Rand-$K$ with the strong performance of Top-$K$.


翻译:通信仍然是大规模分布式机器学习中的核心瓶颈,梯度稀疏化已成为缓解这一挑战的有效策略。然而,现有的梯度压缩器存在显著局限性:Rand-$K$方法丢弃了结构信息且实际性能较差,而Top-$K$方法虽能保留信息丰富的梯度条目,却失去了压缩收缩特性并需要昂贵的All-Gather操作。本文提出ARC-Top-$K$,这是一种兼容All-Reduce操作的Top-$K$压缩器,它通过轻量级梯度草图实现节点间稀疏模式的对齐,从而在保留全局重要信息的同时实现无需索引的All-Reduce操作。ARC-Top-$K$具有可证明的收缩性,当与动量误差反馈(EF21M)结合时,在标准假设下比原始EF21M实现了线性加速和更快的收敛速率。实验表明,ARC-Top-$K$在保持Top-$K$精度的同时,将训练时间缩短了最高60.7%,提供了一个高效可扩展的解决方案,兼具Rand-$K$的鲁棒性与Top-$K$的优异性能。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
专知会员服务
41+阅读 · 2021年6月19日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员