The dynamic behavior of RMSprop and Adam algorithms is studied through a combination of careful numerical experiments and theoretical explanations. Three types of qualitative features are observed in the training loss curve: fast initial convergence, oscillations, and large spikes in the late phase. The sign gradient descent (signGD) flow, which is the limit of Adam when taking the learning rate to 0 while keeping the momentum parameters fixed, is used to explain the fast initial convergence. For the late phase of Adam, three different types of qualitative patterns are observed depending on the choice of the hyper-parameters: oscillations, spikes, and divergence. In particular, Adam converges much smoother and even faster when the values of the two momentum factors are close to each other. This observation is particularly important for scientific computing tasks, for which the training process usually proceeds into the high precision regime.


翻译:RMSpop 和 Adam 算法的动态行为是通过仔细的数值实验和理论解释结合研究的。在培训损失曲线中观察到三种质量特征: 快速初始趋同、 振动和后期的大幅攀升。 标志梯度下降( Sign GD) 流是亚当在保持动向参数的同时将学习速率提高到0的极限,用来解释快速初始趋同。 在亚当的后期阶段, 观察到三种不同类型的质量模式, 取决于对超参数的选择: 振动、 振动和差异。 特别是当两个动因的数值接近时, 亚当会更加平稳, 甚至更快地聚集。 这一观察对于科学计算任务尤其重要, 因为这些任务的培训过程通常会进入高精度的系统。

0
下载
关闭预览

相关内容

强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年11月23日
Arxiv
0+阅读 · 2021年11月23日
Arxiv
0+阅读 · 2021年11月21日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
VIP会员
相关VIP内容
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员