Optimization in Deep Learning is mainly dominated by first-order methods which are built around the central concept of backpropagation. Second-order optimization methods, which take into account the second-order derivatives are far less used despite superior theoretical properties. This inadequacy of second-order methods stems from its exorbitant computational cost, poor performance, and the ineluctable non-convex nature of Deep Learning. Several attempts were made to resolve the inadequacy of second-order optimization without reaching a cost-effective solution, much less an exact solution. In this work, we show that this long-standing problem in Deep Learning could be solved in the stochastic case, given a suitable regularization of the neural network. Interestingly, we provide an expression of the stochastic Hessian and its exact eigenvalues. We provide a closed-form formula for the exact stochastic second-order Newton direction, we solve the non-convexity issue and adjust our exact solution to favor flat minima through regularization and spectral adjustment. We test our exact stochastic second-order method on popular datasets and reveal its adequacy for Deep Learning.


翻译:深层学习的优化主要以围绕后方适应的中央概念构建的第一阶方法为主。第二阶优化方法,其中考虑到第二阶衍生物,尽管理论性质优异,但使用率要低得多。第二阶方法的这种不足源于其高昂的计算成本、性能差和深层学习不可调和的性质。曾几次试图解决第二阶优化的不足,但没有找到成本效益高的解决办法,更没有精确的解决办法。在这项工作中,我们表明深层学习中这一长期存在的问题可以在神经网络适当正规化的情况下解决。有趣的是,我们提供了热层分析法及其精度等值的表达方式。我们为精确的随机第二阶的牛顿方向提供了一种封闭式公式,我们解决了非凝固性的问题,并调整了我们的确切解决办法,以通过正规化和光谱调整来有利于平坦的微型。我们测试了大众数据集的精确的第二阶梯方法,并展示了深层学习的充足性。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
专知会员服务
112+阅读 · 2019年12月24日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【干货】Deep Learning with Python 终于等到你!
量化投资与机器学习
11+阅读 · 2017年12月5日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年5月31日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
18+阅读 · 2021年3月16日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【干货】Deep Learning with Python 终于等到你!
量化投资与机器学习
11+阅读 · 2017年12月5日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年5月31日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
18+阅读 · 2021年3月16日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Top
微信扫码咨询专知VIP会员