我们研究了深度学习优化算法评估中的几个混合因素。首先,我们深入研究自适应梯度方法如何与学习速率调整相互作用,这是一个众所周知的难以调整的超参数,它对神经网络训练的收敛和推广具有显着影响。我们引入了一个“嫁接”实验,该实验将更新的大小与其方向解耦,发现文献中的许多现有信念可能是由于对步长的隐式时间表的隔离不足而产生的。除了这一贡献之外,我们还对自适应梯度方法的推广进行了一些实证和理论回顾,旨在为这一空间带来更清晰的视角。

成为VIP会员查看完整内容
19

相关内容

工欲善其事,必先利其器,想要学习机器学习,那么首先我们就由机器学习的必备工具说起。
【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
13+阅读 · 2020年4月28日
A Modern Introduction to Online Learning
Arxiv
21+阅读 · 2019年12月31日
Bivariate Beta LSTM
Arxiv
6+阅读 · 2019年10月7日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
3+阅读 · 2018年10月11日
VIP会员
相关论文
A Modern Introduction to Online Learning
Arxiv
21+阅读 · 2019年12月31日
Bivariate Beta LSTM
Arxiv
6+阅读 · 2019年10月7日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
3+阅读 · 2018年10月11日
微信扫码咨询专知VIP会员