In federated distributed learning, the goal is to optimize a global training objective defined over distributed devices, where the data shard at each device is sampled from a possibly different distribution (a.k.a., heterogeneous or non i.i.d. data samples). In this paper, we generalize the local stochastic and full gradient descent with periodic averaging-- originally designed for homogeneous distributed optimization, to solve nonconvex optimization problems in federated learning. Although scant research is available on the effectiveness of local SGD in reducing the number of communication rounds in homogeneous setting, its convergence and communication complexity in heterogeneous setting is mostly demonstrated empirically and lacks through theoretical understating. To bridge this gap, we demonstrate that by properly analyzing the effect of unbiased gradients and sampling schema in federated setting, under mild assumptions, the implicit variance reduction feature of local distributed methods generalize to heterogeneous data shards and exhibits the best known convergence rates of homogeneous setting both in general nonconvex and under {\pl}~ condition (generalization of strong-convexity). Our theoretical results complement the recent empirical studies that demonstrate the applicability of local GD/SGD to federated learning. We also specialize the proposed local method for networked distributed optimization. To the best of our knowledge, the obtained convergence rates are the sharpest known to date on the convergence of local decant methods with periodic averaging for solving nonconvex federated optimization in both centralized and networked distributed optimization.


翻译:在联合分布式教学中,目标是优化在分布式设备上界定的全球培训目标,在分布式设备上,每个设备的数据碎片是从可能不同的分布(a.k.a.a.,混杂或非i.d.数据样本)中取样的。 在本文件中,我们以定期平均平均分布式优化为基础,对当地偏差和完全梯度下坡法进行概括化,定期平均原设计为单一分布式分配优化,以解决联合会式学习中非混凝土优化问题。虽然对地方 SGD在减少同质设置中的通信回合数量方面效果的研究很少,但其在差异性环境下的趋同和通信复杂性大多通过理论低调来证明,缺乏。为了缩小这一差距,我们通过适当分析无偏差梯度梯度和完全梯度下坡度下坡度的取样结果,在轻度假设下,将当地分布式方法的隐含的缩小差异性特征,概括为混凝度数据碎片,并展示已知的在一般非凝固化型和处于 普罗化状态(普遍化) 。 我们的理论结果补充了最近的实验性研究,展示了当地平均网络的中央化统一化方法的可应用性统一化,我们所了解的中央-SG-D-联邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-邦-

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员