在深度神经网络中,我们经常会遇到损失函数具有高维度、非凸以及非光滑等特性的问题。在这种大规模场景下,传统优化理论文献中基于黑盒分析并假设某些全局最坏情况参数所给出的理论界,可能是空洞的(即无法提供有效约束)。此外,优化算法与损失几何之间可能存在复杂的交互现象:最新研究表明,在优化过程中所经历的迭代点的几何特征高度依赖于优化算法的选择及其相关超参数。这些挑战促使我们采用局部而非全局、并且与算法相关的轨迹分析方法,细致追踪训练动态。

本论文将聚焦于神经网络中优化算法的局部轨迹,并尝试从优化视角和特征学习视角理解其训练动态。 从优化视角出发,我们将比较自适应优化方法(如 Adam)与非自适应方法的局部损失几何,并指出自适应方法可能会将其轨迹偏向具有某种均匀性特性的区域。接着,我们将证明这种均匀性特性是促使优化加速的一个重要因素。

特征学习视角出发,本论文将关注**神经切线核(Neural Tangent Kernel, NTK)**的演化,并展示在较大学习率下的梯度下降动态会倾向于增强 NTK 与目标函数之间的对齐程度。随后,我们将探讨这种对齐特性与特征学习及神经网络泛化能力之间的联系。针对我们的实证发现,论文还将提供理论分析以解释其内在机制。 最后,我们将总结全文,并讨论将本研究推广至更复杂情境的潜在未来方向,以便更好地理解实际训练中的动态过程。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
36+阅读 · 2024年10月30日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
27+阅读 · 2024年8月26日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
475+阅读 · 2023年3月31日
Arxiv
173+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员