在深度神经网络中,常常遇到损失函数是高维的、非凸的和非平滑的情况。在这些大规模的设置中,传统优化文献中的理论边界(这些文献集中在假设一些全局最坏情况参数的黑箱分析)可能变得没有意义。此外,优化算法与损失几何之间可能存在复杂的交互现象:最近的研究表明,优化过程中遇到的迭代几何特征在很大程度上取决于优化算法的选择及其超参数。这些挑战促使我们进行局部而非全局、算法相关的轨迹分析,并详细追踪训练动态。 本论文将重点研究神经网络中优化算法的局部轨迹,并尝试从优化和特征学习的角度理解其训练动态。从优化角度出发,我们将比较自适应优化方法(例如Adam)与非自适应方法的局部损失几何,并展示自适应方法能够将其轨迹偏向于具有某种均匀性特性的区域。接下来,我们将证明这一均匀性特性是加速优化的一个促成因素。 从特征学习的角度,本论文将关注神经切线核(NTK)的演化,并展示具有大学习率的梯度下降动态倾向于增加NTK与目标函数之间的对齐度。随后,我们将讨论这一对齐特性与特征学习以及神经网络泛化能力之间的联系。我们还将提供理论分析,以理解我们经验观察背后的机制。最后,我们将通过讨论潜在的未来方向来总结本论文,旨在将我们的工作推广到更复杂的设置中,以便更好地理解实际中的训练动态。

成为VIP会员查看完整内容
1

相关内容

普林斯顿大学,又译 普林斯敦大学,常被直接称为 普林斯顿,是美国一所私立研究型大学,现为八所常青藤学校之一,绰号为老虎。
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
34+阅读 · 2024年10月30日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
33+阅读 · 2022年3月3日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员