在深度神经网络中,我们经常会遇到损失函数具有高维度、非凸以及非光滑等特性的问题。在这种大规模场景下,传统优化理论文献中基于黑盒分析并假设某些全局最坏情况参数所给出的理论界,可能是空洞的(即无法提供有效约束)。此外,优化算法与损失几何之间可能存在复杂的交互现象:最新研究表明,在优化过程中所经历的迭代点的几何特征高度依赖于优化算法的选择及其相关超参数。这些挑战促使我们采用局部而非全局、并且与算法相关的轨迹分析方法,细致追踪训练动态。
本论文将聚焦于神经网络中优化算法的局部轨迹,并尝试从优化视角和特征学习视角理解其训练动态。 从优化视角出发,我们将比较自适应优化方法(如 Adam)与非自适应方法的局部损失几何,并指出自适应方法可能会将其轨迹偏向具有某种均匀性特性的区域。接着,我们将证明这种均匀性特性是促使优化加速的一个重要因素。
从特征学习视角出发,本论文将关注**神经切线核(Neural Tangent Kernel, NTK)**的演化,并展示在较大学习率下的梯度下降动态会倾向于增强 NTK 与目标函数之间的对齐程度。随后,我们将探讨这种对齐特性与特征学习及神经网络泛化能力之间的联系。针对我们的实证发现,论文还将提供理论分析以解释其内在机制。 最后,我们将总结全文,并讨论将本研究推广至更复杂情境的潜在未来方向,以便更好地理解实际训练中的动态过程。