在深度神经网络中,常常遇到损失函数是高维的、非凸的和非平滑的情况。在这些大规模的设置中,传统优化文献中的理论边界(这些文献集中在假设一些全局最坏情况参数的黑箱分析)可能变得没有意义。此外,优化算法与损失几何之间可能存在复杂的交互现象:最近的研究表明,优化过程中遇到的迭代几何特征在很大程度上取决于优化算法的选择及其超参数。这些挑战促使我们进行局部而非全局、算法相关的轨迹分析,并详细追踪训练动态。 本论文将重点研究神经网络中优化算法的局部轨迹,并尝试从优化和特征学习的角度理解其训练动态。从优化角度出发,我们将比较自适应优化方法(例如Adam)与非自适应方法的局部损失几何,并展示自适应方法能够将其轨迹偏向于具有某种均匀性特性的区域。接下来,我们将证明这一均匀性特性是加速优化的一个促成因素。 从特征学习的角度,本论文将关注神经切线核(NTK)的演化,并展示具有大学习率的梯度下降动态倾向于增加NTK与目标函数之间的对齐度。随后,我们将讨论这一对齐特性与特征学习以及神经网络泛化能力之间的联系。我们还将提供理论分析,以理解我们经验观察背后的机制。最后,我们将通过讨论潜在的未来方向来总结本论文,旨在将我们的工作推广到更复杂的设置中,以便更好地理解实际中的训练动态。