While many distributed optimization algorithms have been proposed for solving smooth or convex problems over the networks, few of them can handle non-convex and non-smooth problems. Based on a proximal primal-dual approach, this paper presents a new (stochastic) distributed algorithm with Nesterov momentum for accelerated optimization of non-convex and non-smooth problems. Theoretically, we show that the proposed algorithm can achieve an $\epsilon$-stationary solution under a constant step size with $\mathcal{O}(1/\epsilon^2)$ computation complexity and $\mathcal{O}(1/\epsilon)$ communication complexity. When compared to the existing gradient tracking based methods, the proposed algorithm has the same order of computation complexity but lower order of communication complexity. To the best of our knowledge, the presented result is the first stochastic algorithm with the $\mathcal{O}(1/\epsilon)$ communication complexity for non-convex and non-smooth problems. Numerical experiments for a distributed non-convex regression problem and a deep neural network based classification problem are presented to illustrate the effectiveness of the proposed algorithms.


翻译:虽然提出了许多分布式优化算法,以解决网络上的平滑或康纳问题,但其中很少有人能够处理非convex和非movex问题。根据一种近似初始的纯度方法,本文件展示了一种新的(随机)分布式算法,与Nesterov 动力,以加速优化非convex和非湿度问题。理论上,我们显示,拟议的算法可以在一个固定的步数范围内,用美元(1//o}(1/\epsilon2)美元计算复杂性和$\mathcal{O}(1/\epsilon)美元通信复杂性和$\mathcal{O}(1/\epsilon)美元通信复杂性。与现有的基于梯度跟踪方法相比,拟议的算法具有相同的计算复杂性的顺序,但通信复杂性的顺序较低。据我们所知,我们所介绍的结果是,用美元/mathcal{O}(1/\esilonlon)美元(1/\islon)在非conx和非深层的通信问题中可以达到一个持续的通信复杂性。为分布式网络分析问题而提出的神经实验是基于网络的网络分析问题。

0
下载
关闭预览

相关内容

CC在计算复杂性方面表现突出。它的学科处于数学与计算机理论科学的交叉点,具有清晰的数学轮廓和严格的数学格式。官网链接:https://link.springer.com/journal/37
专知会员服务
50+阅读 · 2020年12月14日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
211+阅读 · 2020年6月5日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
152+阅读 · 2020年5月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
29+阅读 · 2020年4月15日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
通用矩阵乘(GEMM)优化与卷积计算
极市平台
50+阅读 · 2019年6月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
LeetCode的C++ 11/Python3 题解及解释
专知
16+阅读 · 2019年4月13日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
CADA: Communication-Adaptive Distributed Adam
Arxiv
0+阅读 · 2020年12月31日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
VIP会员
相关资讯
通用矩阵乘(GEMM)优化与卷积计算
极市平台
50+阅读 · 2019年6月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
LeetCode的C++ 11/Python3 题解及解释
专知
16+阅读 · 2019年4月13日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员