Learning rate is widely regarded as crucial for effective foundation model pretraining. Recent research explores and demonstrates the transferability of learning rate configurations across varying model and dataset sizes, etc. Nevertheless, these approaches are constrained to specific training scenarios and typically necessitate extensive hyperparameter tuning on proxy models. In this work, we propose \textbf{AdaLRS}, a plug-in-and-play adaptive learning rate search algorithm that conducts online optimal learning rate search via optimizing loss descent velocities. We provide theoretical and experimental analyzes to show that foundation model pretraining loss and its descent velocity are both convex and share the same optimal learning rate. Relying solely on training loss dynamics, AdaLRS involves few extra computations to guide the search process, and its convergence is guaranteed via theoretical analysis. Experiments on both LLM and VLM pretraining show that AdaLRS adjusts suboptimal learning rates to the neighborhood of optimum with marked efficiency and effectiveness, with model performance improved accordingly. We also show the robust generalizability of AdaLRS across varying training scenarios, such as different model sizes, training paradigms, base learning rate scheduler choices, and hyperparameter settings.


翻译:学习率被广泛认为是实现有效基础模型预训练的关键因素。近期研究探索并论证了学习率配置在不同模型与数据集规模等条件下的可迁移性。然而,这些方法受限于特定的训练场景,且通常需要在代理模型上进行大量的超参数调优。本文提出 \textbf{AdaLRS},一种即插即用的自适应学习率搜索算法,其通过优化损失下降速度在线搜索最优学习率。我们通过理论与实验分析表明,基础模型预训练的损失函数及其下降速度均具有凸性,且共享相同的最优学习率。AdaLRS 仅依赖于训练损失动态,以极少的额外计算量引导搜索过程,并通过理论分析保证了其收敛性。在大型语言模型与视觉语言模型预训练上的实验表明,AdaLRS 能够高效且显著地将次优学习率调整至最优邻域,并相应提升模型性能。我们还展示了 AdaLRS 在不同训练场景下的鲁棒泛化能力,包括不同模型规模、训练范式、基础学习率调度器选择以及超参数设置。

0
下载
关闭预览

相关内容

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员