本文系统综述了在理解深度线性神经网络梯度流方程动力学特性与损失景观方面的最新进展。该梯度流方程即指在步长趋于零的极限情况下,深度神经网络(不含激活函数并采用二次损失函数)的梯度下降训练动力学。当采用本文所述的邻接矩阵表述时,该梯度流方程构成了一类收敛的矩阵常微分方程,具有幂零、多项式、等谱特性及守恒律。 本文对损失景观进行了详细描述。其特征是存在无穷多个全局极小值点及鞍点(包括严格与非严格鞍点),但不存在局部极小值点与极大值点。损失函数本身是该梯度流的一个半正定李雅普诺夫函数,其水平集是无界的临界点不变集,其临界值对应于梯度沿特定轨迹学习到的输入输出数据的奇异值总量。 本文采用的邻接矩阵表示法,凸显了损失景观中存在的商空间结构:在该结构中,每个损失函数临界值仅出现一次,而所有具有相同临界值的其他临界点均属于该商空间所对应的纤维。此表示法还能方便地确定鞍点处的稳定与不稳定流形,即使在黑塞矩阵无法提供该信息的情况下亦然。
在过去十年中,深度学习已在计算机视觉、语音识别和自然语言处理等多个领域的实际应用中取得了显著成功[29]。然而,对其成功背后原因的理论理解仍相对滞后。从优化角度看,深度学习中使用的损失函数通常是非凸的,且早在[8]的研究中就已知,即使在简单的神经网络示例中,全局最优性也是一个NP难问题。此外,由于层间权重乘法与隐藏层非线性激活函数的结合,深度神经网络的输入-输出映射呈现高度非线性。然而,即使采用简单的一阶梯度下降算法,通常也能收敛到较小的损失误差,而不会陷入不良的局部极小值。尽管深度学习普遍存在过参数化现象,训练后的网络对新数据仍表现出良好的泛化能力。 深度神经网络的非线性特性使得理解其高效性能背后的原理及关键贡献因素变得困难。一个便于探索这些问题的简化设置是所谓的深度线性神经网络,即缺少激活函数的多层前馈神经网络。尽管此类网络的表达能力并未超越线性系统,但由于其同时具备非凸损失、过参数化、梯度下降可训练性、训练动力学的非线性等特征,并且在数学上可处理、其行为可通过解析方法理解,因此具有重要研究价值。 事实上,近年来关于深度线性神经网络的研究成果不断涌现。对于具有二次损失的浅层网络,自[6]以来便知不存在局部极小值;而将这一结果推广到深度线性网络的工作归功于[24],他们证明任何局部极小值同时也是全局极小值,且任何其他临界点均为鞍点。只要网络架构不存在瓶颈,该结论对任何凸可微损失函数均成立[28, 40]。[43]提出了一个分类全局极小值与鞍点的简单准则,另见[45]的替代表述。线性神经网络的梯度动力学已在多篇论文中得到研究,包括连续时间[36, 4, 39, 10, 12]和离散时间[2, 3, 17]情形,研究表明不同类型的初始化会导致不同的学习动力学:当初始条件靠近原点时,轨迹通常沿着损失景观的近平坦部分移动,并在发现输入-输出数据的新奇异值时出现急剧下降。学习过程从最大奇异值到最小奇异值依次进行[36, 17],也被称为增量学习(或鞍点到鞍点学习)[17, 18, 23]。而当轨迹初始点远离原点时,学习以更高的收敛速率进行,所有奇异值被同时学习。对于足够宽的网络,与此类初始化相关的学习动力学常被称为“懒惰”学习:初始值似乎更靠近全局极小值而非鞍点,且训练动力学表现为线性[23]。网络宽度与初始化规模之间的相互作用及其与懒惰学习和“主动”学习的关系在[42]等文献中进行了探讨。然而,仅凭宽度不足以诱导懒惰学习,因为通过精心选择初始化,懒惰学习可能出现在有限宽网络中[26],并且可以在无限宽网络中避免[11]。在原点附近初始化意味着施加(近似)“平衡”守恒律,并导致“同步”层,即沿轨迹及在临界点处,各层的奇异值几乎相同,各层的奇异向量通常也近乎对齐。特别地,在所谓的0平衡情况下,浅层网络可以获得精确解[36, 14],且深层网络奇异值的分析得以简化[4]。另一种层奇异向量沿轨迹保持对齐的特殊情况是所谓的解耦初始化(也称为谱初始化或训练对齐初始化)[37, 39, 17, 33, 27]。不同初始化和拓扑结构下梯度下降的收敛速率在[2, 10, 39, 33]等文献中进行了分析。 本文还重点参考了[10]和[1]。[10]利用Lojasiewicz定理[32]证明了“逐点收敛”(即每条轨迹收敛到一个临界点),并利用了黑塞二次型(而非需要对状态空间进行向量化才能得到的黑塞矩阵)。[1]则对临界点(包括二阶临界点)进行了详细描述和显式参数化,将临界点分类为严格(当黑塞二次型存在负方向时)和非严格(当此类方向不存在时)。文献[5]采用黎曼几何方法处理梯度动力学,证明在浅层情况下严格鞍点几乎总是可以被避免[10, 30],并研究了隐式正则化现象的某些方面,即倾向于用低复杂度模型拟合训练数据的趋势。更具体地说,[5, 1]计算了当演化限制在权重矩阵乘积受秩约束的流形上时所获得的全局极小值,其方式让人联想到截断奇异值分解的Eckart-Young定理。关于隐式正则化问题的不同视角在[21, 15, 31, 4, 7]中进行了讨论,并在[12, 31]中针对矩阵分解问题进行了总结:至少当初始化靠近原点时,[12, 31]的结论是学习过程倾向于产生“贪婪低秩”模型。 本文旨在回顾上述部分结果,并对深度线性神经网络的训练动力学和损失景观特性给出一个自成体系的概述,重点关注与二次损失函数相关的梯度流方程,即当成本函数为均方误差且步长趋于0时,从梯度下降算法得到的常微分方程。对于该ODE,状态变量是网络的参数,即连接从输入层到输出层(经隐藏层)的连续层的边权重。为使表述尽可能简单,我们专注于超定和过参数化的情况,即假设有足够多的输入-输出数据点可用,且隐藏层节点数至少与输出层一样多。 我们的原创贡献在于采取全局视角,并基于网络的邻接矩阵重新表述梯度流方程,而不是处理与网络层数一样多的独立矩阵ODE。这种选择使得符号表示得以简化,结果得以精简(且常常简化),并有助于深入理解系统特性。例如,网络的前馈特性反映在邻接矩阵的块移位结构中,因此邻接矩阵是幂零的。对应不同层的权重矩阵的乘积变成了邻接矩阵的幂(直至幂零指数,该指数对应于网络的层数)。达到该幂次的邻接矩阵对应于网络的输入-输出映射,并进入二次损失函数。关于动力学,当用邻接矩阵表示时,深度线性神经网络的梯度流形成了一类有趣的矩阵ODE:它是多项式的、等谱的、具有守恒律且总是收敛的。如上所述,它没有任何局部极小值或极大值,只有无限多个全局极小值和鞍点(包括严格和非严格鞍点)。 理解临界点性质的标准方法在于研究损失函数的黑塞矩阵,但这仅能提供基于二阶变分的分类,而非完整的分类。例如,对于四次损失函数L(x) = x⁴/4,在临界点x = 0处黑塞矩阵为零,但显然x = 0是L(x)的全局极小值,并且是梯度流ẋ = -x³的全局渐近稳定平衡点。 对于矩阵状态空间表示(如本文情况),黑塞矩阵总可以通过对状态进行向量化来获得。当黑塞矩阵非奇异时,正定(负定)黑塞矩阵对应于局部极小值(极大值),而混合特征值符号对应于鞍点。然而,当黑塞矩阵奇异时(我们的梯度流总是如此),确定临界点的稳定性/曲率特性变得更具挑战性,仅观察黑塞矩阵可能不再足够。特别地,当我们处理鞍点时,如果黑塞矩阵至少有一个负特征值,则该鞍点是严格的;而当黑塞矩阵是半正定时,该鞍点是非严格的。尽管有文献指出基于梯度的算法几乎必然可以避免严格鞍点[30, 5](即使是非孤立的严格鞍点[34]),但原则上对于非严格鞍点可能并非如此。事实上,非严格鞍点通常与局部损失景观中的平台区相关,并且在其附近梯度流解的收敛速度可能显著减慢,可能导致梯度下降训练算法提前停止。对于矩阵ODE,对状态进行向量化的一种替代方法是保持其矩阵形式,并考虑黑塞二次型。这是[10, 1]以及本文所采用的方法。通过探测可能的变分(其本身也是块移位形式的矩阵),可以推断鞍点的严格性。在本文中,我们还展示了可以完全绕过黑塞矩阵的图像,通过对损失景观进行显式分析,系统地识别梯度流所有临界点的稳定和不稳定子流形。 黑塞矩阵的奇异性是梯度流没有任何临界点是孤立的事实的结果。实际上,损失函数的每个临界值都与动力学的一个无界不变集相关联。例如,损失函数是梯度流的一个李雅普诺夫函数,但它仅是半正定的,并且拥有连续统的全局极小值,这意味着它们中的任何一个都不可能是渐近稳定的。拥有散布在状态空间中的无限多个全局极小值这一事实有利于收敛(任何初始条件都有某个全局极小值在“附近”),但使损失景观的描述复杂化。 为更好地理解此特性,回顾在我们的表述中,损失函数依赖于邻接矩阵的幂,而非邻接矩阵本身。无限多个邻接矩阵对应同一个矩阵幂,这意味着对于损失函数的每个值,存在无限多个邻接矩阵。表征状态空间结构的一种可能方法是将其划分为矩阵幂运算的等价类。与该等价关系相关的商空间上的纤维对应于所有具有相同幂的矩阵。特别地,当我们限制在临界点时,商空间仅包含每个等价临界点族的一个代表元,即损失函数的每个水平面(也是梯度流的一个不变集)与商空间中的单个点相关联。我们的等价关系灵感来源于[40]中提出的损失函数分解。在我们的表述中,由等价关系诱导的商空间上的纤维对应于隐藏节点空间中的基变换,加上在取幂时消失的项。梯度流的每条轨迹都收敛到与渐近达到的临界值相关的纤维内的一个特定临界点,具体取决于初始条件。 回顾梯度流学习到的是输入-输出数据的奇异值,这些奇异值进入深度线性神经网络邻接矩阵的幂中。自[13]以来已知SVD不能很好地推广到矩阵乘积(因此也不能很好推广到矩阵幂),另见[44]第5章。这种困难使得纤维的显式描述和损失景观的解释变得复杂:在我们的商空间上的每个纤维内部,存在着看起来截然不同但却与损失函数相同临界值相关联的临界点(即邻接矩阵)。如前所述,收敛到这些临界点的梯度流轨迹的行为也可能因初始条件的不同而有很大差异。文献中常用的上述初始化方法(0平衡和解耦)对应于SVD(以一种我们称为块移位SVD的特殊形式)能很好地推广到矩阵幂的情况,这显著简化了动力学。本文详细研究了这些特殊情况。 本文其余部分结构如下。第2节介绍了梯度流方程的标准表述,第3节介绍了使用邻接矩阵重新表述后的形式。第4节概述了梯度流的收敛性分析和损失景观。第5节更详细讨论了特殊初始化导致的简化动力学。第6节给出了示例。最后,第7节简要提及了本研究可能的一系列扩展方向,第8节对全文进行总结。