【NeurIPS2020-北大】非凸优化裁剪算法的改进分析 - 专知VIP

会员服务 ·

7

非凸优化 · 裁剪算法 ·

2020 年 10 月 11 日

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Improved Analysis of Clipping Algorithms for Non-convex Optimization

梯度裁剪在深度神经网络训练中应用广泛，部分原因是其在解决梯度爆炸问题上的实用性。最近，Zhang等人[2020a]通过引入一个新的假设(L0, L1)-平滑性，证明剪切(随机)梯度下降(GD)比普通的GD/SGD收敛得更快，该假设表征了深度神经网络中通常遇到的梯度剧烈波动。然而，它们在问题相关参数上的迭代复杂性是相当悲观的，并且裁剪与其他关键技术(如动量加速)相结合的理论证明仍然缺乏。在本文中，我们提出了一个研究剪切算法的一般框架来弥补这一差距，该框架也考虑了动量法。我们提供了框架在确定性和随机设置的收敛性分析，并通过比较它们与现有的下界来证明我们的结果的紧密性。我们的结果表明，剪裁方法的效率不会退化，即使在景观的高度非光滑的区域。实验证明了基于裁剪的方法在深度学习任务中的优越性。

https://arxiv.org/abs/2010.02519

成为VIP会员查看完整内容

29

相关内容

非凸优化

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

【NeurIPS2020】梯度增强的转导优化和泛化分析及在多尺度图神经网络中的应用

专知会员服务

14+阅读 · 2020年9月27日

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

专知会员服务

104+阅读 · 2020年6月28日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

专知会员服务

44+阅读 · 2020年1月10日

八篇NeurIPS 2019最新公布的【图神经网络（GNN）】相关论文

八篇NeurIPS 2019最新公布的【图神经网络（GNN）】相关论文

专知

75+阅读 · 2019年9月10日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

从动力学角度看优化算法：一个更整体的视角

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

机器之心

8+阅读 · 2018年11月20日

Conjecturing-Based Computational Discovery of Patterns in Data

Arxiv

0+阅读 · 2020年11月23日

Improved Confidence Bounds for the Linear Logistic Model and Applications to Linear Bandits

Arxiv

0+阅读 · 2020年11月23日

Non-Reversible Parallel Tempering: a Scalable Highly Parallel MCMC Scheme

Arxiv

0+阅读 · 2020年11月22日

Convergence Analysis of Homotopy-SGD for non-convex optimization

Arxiv

0+阅读 · 2020年11月20日

An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits

Arxiv

0+阅读 · 2020年11月20日

VIP会员

相关主题

相关VIP内容

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

【NeurIPS2020】梯度增强的转导优化和泛化分析及在多尺度图神经网络中的应用

专知会员服务

14+阅读 · 2020年9月27日

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

专知会员服务

104+阅读 · 2020年6月28日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

专知会员服务

44+阅读 · 2020年1月10日

热门VIP内容

开通专知VIP会员享更多权益服务

美海军作战管理系统：变革战场空间的二十年

《任务与武器驱动美海军舰队设计》报告

俄罗斯“沙希德”/“天竺葵”攻击无人机

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

相关资讯

八篇NeurIPS 2019最新公布的【图神经网络（GNN）】相关论文

八篇NeurIPS 2019最新公布的【图神经网络（GNN）】相关论文

专知

75+阅读 · 2019年9月10日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

从动力学角度看优化算法：一个更整体的视角

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

机器之心

8+阅读 · 2018年11月20日

相关论文

Conjecturing-Based Computational Discovery of Patterns in Data

Arxiv

0+阅读 · 2020年11月23日

Improved Confidence Bounds for the Linear Logistic Model and Applications to Linear Bandits

Arxiv

0+阅读 · 2020年11月23日

Non-Reversible Parallel Tempering: a Scalable Highly Parallel MCMC Scheme

Arxiv

0+阅读 · 2020年11月22日

Convergence Analysis of Homotopy-SGD for non-convex optimization

Arxiv

0+阅读 · 2020年11月20日

An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits

Arxiv

0+阅读 · 2020年11月20日

微信扫码咨询专知VIP会员