The growing scale of deep learning models has rendered standard hyperparameter (HP) optimization prohibitively expensive. A promising solution is the use of scale-aware hyperparameters, which can enable direct transfer of optimal HPs from small-scale grid searches to large models with minimal performance loss. To understand the principles governing such transfer strategy, we develop a general conceptual framework for reasoning about HP transfer across scale, characterizing transfer as fast when the suboptimality it induces vanishes asymptotically faster than the finite-scale performance gap. We show formally that fast transfer is equivalent to useful transfer for compute-optimal grid search, meaning that transfer is asymptotically more compute-efficient than direct tuning. While empirical work has found that the Maximal Update Parameterization ($μ$P) exhibits fast transfer when scaling model width, the mechanisms remain poorly understood. We show that this property depends critically on problem structure by presenting synthetic settings where transfer either offers provable computational advantage or fails to outperform direct tuning even under $μ$P. To explain the fast transfer observed in practice, we conjecture that decomposing the optimization trajectory reveals two contributions to loss reduction: (1) a width-stable component that determines the optimal HPs, and (2) a width-sensitive component that improves with width but weakly perturbs the HP optimum. We present empirical evidence for this hypothesis across various settings, including large language model pretraining.


翻译:深度学习模型规模的不断增长使得标准的超参数优化变得极其昂贵。一种有前景的解决方案是使用规模感知的超参数,它能够将最优超参数从小规模网格搜索直接迁移到大型模型,且性能损失最小。为了理解这种迁移策略背后的原理,我们建立了一个通用的概念框架,用于推理跨规模的超参数传递,并将其定义为"快速传递"——即当传递引起的次优性以渐近速度比有限规模性能差距更快地消失时。我们形式化地证明,对于计算最优的网格搜索,快速传递等价于有效传递,这意味着传递在渐近意义上比直接调优更具计算效率。虽然实证研究发现,在扩展模型宽度时,最大更新参数化表现出快速传递的特性,但其机制仍不甚明了。我们通过展示几种合成场景表明,这一特性关键取决于问题结构:在某些场景下传递可提供可证明的计算优势,而在另一些场景下,即使在最大更新参数化下,传递也无法超越直接调优。为了解释实践中观察到的快速传递现象,我们推测,通过分解优化轨迹可以发现损失减少的两个贡献来源:(1) 一个决定最优超参数的宽度稳定分量,以及 (2) 一个随宽度改善但对超参数最优值扰动较弱的宽度敏感分量。我们在多种场景(包括大语言模型预训练)中提供了支持这一假设的实证证据。

0
下载
关闭预览

相关内容

在贝叶斯统计中,超参数是先验分布的参数; 该术语用于将它们与所分析的基础系统的模型参数区分开。
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
专知会员服务
25+阅读 · 2021年9月25日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2025年12月31日
Arxiv
0+阅读 · 2025年12月29日
VIP会员
相关资讯
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员