会员服务 ·

硬刚无限宽神经网络后，谷歌大脑有了12个新发现

2020 年 8 月 12 日 AI科技评论

作者 | 青暮、陈大鑫

编辑 | 陈彩娴

各位炼丹师平时“炼丹”时最多跑过多深的神经网络呢？152层，256层，还是更多层？

那各位跑过最宽的神经网络又有多宽呢？可能一层撑死有10个或20个神经元？

对第二个问题，谷歌的回答是：我可以跑无限宽的神经网络。

也许会有人说相比宽度而言，神经网络更需要深度来支持表达性，从一些经典神经网络的发展历程即可看出。但是对于宽度，谷歌大脑还是选择硬刚了一波，并于近期发表了一篇论文：《有限宽与无限宽神经网络：实证研究》，在这篇论文中，作者对无限宽神经网络和核方法之间的对应关系进行了细致、深入和大规模的实证研究。作者声称，他们在该研究中解决了与无限宽神经网络研究相关的各种开放性问题。

该项目负责人Jascha Sohl-Dickstein在Twitter上介绍了这项研究，得到了广泛关注。他表示，这项研究包含了关于无限宽网络的所有方面。一般而言，人们并没有足够的计算能力去探索无限宽神经网络，但显然，谷歌并不担心这个问题。

该研究得出了十二项实验结论，包括（NTK:神经正切核、NNGP：神经网络高斯过程）：

1、NNGP/NTK的性能优于有限宽网络。

2、NNGP通常优于NTK。

3、中心化的和集成的有限宽网络的性能会变得更接近核方法。

4、大学习速率和L2正则化会导致有限宽网络和核方法之间的差异。

5、使用标准参数化可以改善网络的L2正则化。

6、性能与网络宽度的关系是非单调的，并且不同于双下降现象。

7、对角线正则化核函数的作用类似于early stopping。

8、浮点精度限制了超过临界数据集大小的核方法性能。

9、线性化的CNN-GAP模型由于条件差而表现不佳。

10、正则化的ZCA白化提高了准确率。

11、等变性仅对核机制之外的窄网络有益。

12、集成核预测变量有助于NNGP / NTK数据增强。

该实验进一步启发了一种应用于权值衰减的改进的层级缩放方法，从而提高了有限宽网络的泛化能力。最后，作者开发了使用NNGP和NT核进行预测的改进最佳实践，包括一种新的组装技术。通过这些最佳实践，作者实现了CIFAR-10分类的SOTA结果，这些核对应于其考虑的每个架构类。

当中间层无限宽时，很大一类贝叶斯网络和以梯度下降训练的神经网络最后都会收敛到高斯过程（GPs）或与其密切相关的核方法。

这些无限宽网络的预测由贝叶斯网络的神经网络高斯过程（NNGP）核方法进行描述，以及由以梯度下降训练的神经网络的神经正切核（NTK）和权值空间线性化进行描述。

这种对应关系是理解神经网络的关键。它还使核方法、贝叶斯深度学习、主动学习和半监督学习等领域取得了实际进展。

NNGP、NTK和相关的大宽度限制对于精确描述大规模神经网络的理论有独特作用。正因为如此，作者相信它们将继续在深度学习理论中发挥变革作用。

无限宽网络是一个新的活跃领域，基本的经验问题仍然没有答案。在这项工作中，作者对有限宽和无限宽的神经网络进行了广泛而深入的实证研究。该研究定量地探索了驱动有限宽网络和核方法的性能变化的因素，揭示了令人惊喜的新发现，并开发了提高有限宽和无限宽网络性能的最佳实践。作者表示，该研究成果将为未来的宽网络研究奠定基础。

1

实验结果

1、NNGP/NTK的性能优于有限宽网络

无限宽神经网络高斯过程（NNGP）和神经正切核（NTK）预测可以优于有限网络，这取决于架构和训练设置。对于全连接网络，无限宽网络可靠地优于有限网络。

研究无限宽网络的一个常见假设是，它们在大数据中的表现不及相应的有限网络。作者通过将核方法与学习率较低且没有正则化训练的有限宽度架构进行比较，仔细检验了这一假设。然后逐一利用较大的学习率、L2正则化和集合方法，来检验无限宽网络与核方法的相对性能变化。实验结果总结在图1中。

首先关注基础的有限宽网络，作者观察到无限FCN和CNN-VEC优于各自对应的有限宽网络。另一方面，无限宽CNN-GAP网络的性能要比其有限宽的差。作者强调架构在相对性能中起着关键作用。例如，即使与各种技巧（例如大学习率、L2正则化和欠拟合）结合使用，无限FCN也会胜过有限宽网络。仅在使用集合方法之后，性能才变得相似。

一个有趣的发现是，ZCA正则化预处理可以对CNN-GAP核进行重大改进，将差距缩小到1-2％之内。

图1：有限宽和无限宽网络的CIFAR-10测试准确率变化。

2、NNGP通常优于NTK

NNGP（对应于无限宽贝叶斯网络）通常优于NTK（对应于由梯度下降训练的无限宽网络）。

最近对无限宽度网络的评估已将重点放在NTK上，而没有与对应的NNGP模型进行显式比较。结合将NNGP视为“弱训练” （即仅学习了最后一层）的观点，人们可能希望NTK比NNGP更有效。

相反，我们通常会观察到NNGP推理可以实现更好的性能。通过NNGP在所有架构中都可以达到固定核之间的SOTA性能。图2表明该趋势在CIFAR-10、CIFAR-100和Fashion-MNIST上仍然存在。

除了生成更强大的模型外，NNGP核还需要大约一半的内存作为相应的NTK进行计算，并且某些性能最高的核根本没有关联的NTK。这些结果共同表明，在试图最大化性能时，研究人员应从NNGP开始。

图2：仔细调整对角正则化条件时，NNGP在图像分类任务中通常胜过NTK。

3、中心化的和集成的有限宽网络的性能会变得更 接近核方法

有限宽度网络的中心化和集合都会带来更接近核方法的性能。中心化训练可以加快训练速度。

可以通过将模型中心化（centering）来减少预测方差，即减去模型的初始预测。图3观察到中心化显着加快了FCN和CNN-VEC模型的训练速度，并提高了泛化能力，但对CNN-GAP架构几乎没有影响。作者观察到，在给定更多数据的情况下，在无限宽核中，CNN-GAP的规模后验方差相对于先验方差较小，与中心化和集合方法一致，效果不大。

图3：中心化可以加快训练速度并提高表现。整个训练过程中的验证准确率适用于几种有限宽的架构。

4、大学习速率和L2正则化会导致有限宽网络和核方法之间的差异

大学习率和L2正则化都会导致有限网络和核方法之间的差异，并导致有限宽度网络表现得更好。大学习率和L2正则化的组合效应是超线性的。

图1：有限宽和无限宽网络的CIFAR-10测试准确率变化。

5、L2正则化对于NTK参数化网络的效果更好

与标准参数化网络相比，L2正则化对于NTK参数化网络的效果出乎意料地好。作者用匹配层级L2正则化系数对其进行仿真，从而在标准参数化网络（即典型网络）中实现更好的泛化。

图5：NTK驱动的层级缩放使L2正则化在标准参数化网络中更有帮助。

6、泛化性能与网络宽度的关系非单调，并且不同于双下降

某些有限宽网络（尤其是不带池化的CNN网络）的泛化性能对于宽度是非单调的，这是用双下降现象无法解释的。

人们在研究深度学习时反复发现，增加模型中参数的数量可以提高性能。尽管这种现象与从贝叶斯角度的关于泛化的观点是一致的，但与经典泛化理论（主要考虑最坏情况的过拟合）似乎不一致。这导致人们做了关于超参数化和泛化的相互作用的大量工作。特别令人关注的是双重下降现象。

根据经验，作者发现在大多数情况下（两种参数化中的FCN和CNN-GAP，带有标准参数化的CNN-VEC），增加宽度都会导致性能的单调提高。但是，在特定的相对简单的设置中，作者还发现了对宽度的更复杂的依赖性。例如，在图6中，对于具有NTK参数化的CNN-VEC，性能不是单调依赖于宽度，并且最佳宽度是一个中间值。这种非单调性不同于类双重下降现象，因为所有宽度都对应于超参数化模型。

图6：随着宽度的增加，有限宽网络通常表现得更好，但是CNN-VEC显示出惊人的非单调行为。L2：训练期间允许非零权重衰减，LR：允许大学习率。虚线表示允许欠拟合（U）。

7、对角线正则化核函数的作用类似于early stopping

在进行核推理时，通常在训练核矩阵中添加一个对角正则化器。

对于线性回归，Ali等人证明了梯度流下核正则化器的逆与early stopping的时间有关。对于核函数，梯度流动力学直接对应于广义神经网络的训练。

作者在图7中实验性地探索了early stopping、核正则化和泛化之间的关系，观察到了正则化和early stopping之间的密切关系，并发现在大多数情况下，最好的验证性能发生在early stopping和非零ε。

图7：对角核正则化的作用类似于 early stopping。实线对应于具有可变对角线正则化ε的NTK推断。虚线对应于梯度下降演化到特定时间后的预测。线颜色表示不同的训练集大小m。在时间t执行早期停止与系数ε的正则化密切相关，其中K=10表示输出类别的数量。

8、浮点精度限制了超过临界数据集大小的内核性能

作者从经验上观察到，在一个关键的数据集大小下，内核对float32和float64的数值精度变得敏感。例如，GAP模型在数据集大小为10^4时会遇到float32数值精度错误。

图8：无限网络核的尾部特征值显示幂律衰减。红色虚线表示宽度增大的核矩阵由于浮点精度而在特征值中预测的噪声比例。CNN-GAP结构的特征值衰减很快，当数据集大小为O(10^4)时，可能会被float32量化噪声所淹没。对于float64精度，在数据集大小为O(10^10)之前，量化噪声不会变得显著。

这种现象可以用一个简单的随机噪声模型来理解。关键是特征值衰减快的核会受到浮点噪声的影响。经验上，NNGP/NTK的尾部特征值遵循幂律（见图8），测量其衰减趋势可以很好地指示关键数据集大小。

9、线性化的CNN-GAP模型由于条件差而表现不佳

作者观察到线性化的CNN-GAP在训练集上收敛极慢，导致验证性能不佳（图3）。即使在L2正则化强度和学习率发生变化时，训练10M以上的步数，最佳训练精度仍低于90%，测试精度为70%——比相应的无限和非线性有限宽度网络都差。

这是由池化网络条件不佳造成的，CNN-GAP网络在初始化时的调节比FCN或CNN-VEC网络差一倍（CIFAR-10为1024）。

在图8中可以看到核特征谱的这种不良条件。对于线性化网络，除了将训练速度减慢1024倍外，使用float32还会导致数值不稳定。

10、正则化的ZCA白化提高了准确率

ZCA白化是一种数据预处理技术：

最近有研究者证明在一些核方法中它结合分母中的一个小正则化参数可以显著提高精度。

作者研究了ZCA白化作为有限宽度和无限宽度神经网络的预处理步骤的效用，通过调整正则化参数，输入图像的正则化ZCA白化提高了惊人的模型精度，特别是对于无限宽NNGP和NTK预测：

图9：正规化ZCA白化改善了有限宽度和无限宽度网络的图像分类性能。所有曲线均显示性能是ZCA正则强度的函数。（a）对CIFAR-10，Fashion-MNIST和CIFAR-100上的内核方法的输入进行ZCA白化。（b）对有限宽度网络的输入进行ZCA白化（图S11中的训练曲线）。

11、等变性仅对核机制之外的窄网络有益

等变性是一种常用的激发CNN强大性能的方法，作者证明了等变性只对远离核区域的窄网络有益。

图10：等变性仅在核机制之外的CNN模型中使用。如果CNN模型能够有效利用等变性，则我们希望它比FCN（全卷积网络）对裁剪和翻译的鲁棒性更高。出人意料的是，宽输入CNN-VEC的性能随输入扰动幅度的下降速度与FCN一样快，这表明等变性未被利用。相反，具有权重衰减的窄模型（CNN-VEC + L2 + narrow）的性能下降得慢得多。如预期一样，翻译不变的CNNGAP仍然是最可靠的。

12、集成核预测变量有助于NNGP / NTK数据增强

最后，作者提出了一种简单的方法，用于对NNGP和NTK模型的预测进行集成，以在无限宽度网络中实现数据增强。（否则，由于核方法对数据集大小的立方依赖，数据增强是不可行的）