Recently the LARS and LAMB optimizers have been proposed for training neural networks faster using large batch sizes. LARS and LAMB add layer-wise normalization to the update rules of Heavy-ball momentum and Adam, respectively, and have become popular in prominent benchmarks and deep learning libraries. However, without fair comparisons to standard optimizers, it remains an open question whether LARS and LAMB have any benefit over traditional, generic algorithms. In this work we demonstrate that standard optimization algorithms such as Nesterov momentum and Adam can match or exceed the results of LARS and LAMB at large batch sizes. Our results establish new, stronger baselines for future comparisons at these batch sizes and shed light on the difficulties of comparing optimizers for neural network training more generally.


翻译:最近,LARS和LAMB的优化软件被提议用于使用大批量尺寸更快地培训神经网络。LAMB和LAMB分别为重球动力和亚当的最新规则增添了分层正常化,并成为著名基准和深层学习图书馆的流行对象。然而,如果不与标准优化软件进行公平比较,LAMB和LAMB是否对传统的通用算法有任何好处仍是一个未决问题。 在这项工作中,我们证明Nesterov动力和Adam等标准优化算法可以匹配或超过LARS和LAMB的大批量尺寸结果。我们的结果为今后在这类批量尺寸上进行比较建立了新的、更强大的基线,并揭示了比较神经网络培训优化软件的困难。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
图神经网络基准,37页ppt,NTU Chaitanya Joshi
专知会员服务
23+阅读 · 2020年8月22日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
47+阅读 · 2020年7月4日
还在修改博士论文?这份《博士论文写作技巧》为你指南
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
Protocol-based Smart Contract Generation
Arxiv
0+阅读 · 2021年8月5日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
4+阅读 · 2018年4月30日
VIP会员
相关资讯
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
Top
微信扫码咨询专知VIP会员