【深度学习】揭秘深度学习成功的数学原因：从全局最优性到学习表征不变性

2017 年 12 月 18 日 产业智能官 机器之心

选自arXiv

作者：René Vidal、Joan Bruna、Raja Giryes、Stefano Soatto

机器之心编译

参与：黄小天、路雪

近年来，深度学习大获成功，尤其是卷积神经网络（CNN）在图像识别任务上的突出表现。然而，由于黑箱的存在，这种成功一度让机器学习理论学家颇感不解。本文的目的正是要揭示深度学习成功的奥秘。通过围绕着深度学习的三个核心要素——架构、正则化技术和优化算法，并回顾近期研究，作者为深层网络的若干属性，如全局最优性、几何稳定性、学习表征不变性，提供了一个数学证明。

论文：Mathematics of Deep Learning

论文链接：https://arxiv.org/abs/1712.04741

摘要：近期深度架构用于表征学习和分类之后，识别系统的性能获得了巨大提升。然而，这一成功的数学原因依然不得而知。本文将回顾近期研究，为深层网络的若干属性，如全局最优性、几何稳定性、学习表征不变性，提供一个数学证明。

1. 引言

深层网络 [1] 是在输入数据上执行序列操作的参数模型。通俗讲，每个这样的操作被称为「层」，每个层包括一个线性变换（比如其输入的卷积）和一个逐点非线性「激活函数」（比如 Sigmoid）。近期在语音、自然语言处理、计算机视觉的不同应用中，深层网络实现了分类性能的巨大提升。深层网络取得成功的关键原因是其较于传统神经网络有着大量的层；但也有其他架构调整，比如 ReLU [2] 和残差「捷径」连接（residual shortcut connections）[3]。成功的其他主要因素还包括海量数据集的可用性，比如 ImageNet 等数据集中的数百万张图像，以及用于解决由此产生的高维优化问题的高效 GPU 计算硬件（可能具备高达 1 亿个参数）。

深度学习的成功，尤其是 CNN 在图像任务上的成功，给理论学家带来了很多困惑。如果我们打算揭开其成功的奥秘，那么深度学习的三个核心因素——架构、正则化技术和优化算法，对训练优秀性能的深层网络、理解其必然性和互动尤其关键。

A. 近似值、深度、宽度、不变性

神经网络架构设计的一个重要属性是可以近似输入的任意函数。但是这个能力如何依赖于架构的参数，比如其深度和宽度？早期研究表明，具有单一隐藏层和 Sigmoid 激活函数的神经网络是通用函数近似器 [5] [6] [7] [8]。但是，宽的浅层网络的容量可被深层网络复制，且性能出现显著提升。一个可能的解释是深层架构相较于浅层架构可以更好地捕获数据的不变性。比如在计算机视觉中，物体的类别不会随着视角、照明等的变化而变化。对于为什么深层网络能够捕获此类不变性的数学分析仍然不得而知，但近期进展已经为深层网络的特定子类别提供了一些解释。特别是，散射网络 [9] 是一种深层网络，其卷积滤波器组由复杂的多分辨率小波族群给出。正由于这种额外结构，它们被证明是稳定和局部不变的信号表征，并揭示了几何和稳定性的基本作用，这是现代深度卷积网络架构泛化性能的基础（详见第四章）。

B. 泛化和正则化

神经网络架构的另一个重要属性是可以利用少量训练样本进行泛化。统计学习理论的传统结果 [10] 表明，实现良好泛化所需的训练样本数随网络大小呈现多项式增长。然而，在实践中，深层网络训练所需的参数数量要远大于数据量（N D regime），而使用非常简单的（看似相反）正则化技术可以防止过拟合，如 Dropout 在每次迭代中通过简单冻结参数的随机子集即可防止过拟合。

一个可能的解释是，更深层的架构产生输入数据的嵌入，近似地保留同一类中数据点之间的距离，同时增加类别之间的分离。本文将概述 [12] 的近期研究工作，它使用压缩感知和字典学习工具证明具有随机高斯权重的深层网络可以执行保留数据点距离的嵌入，其中相似输入可能具有相似输出。这些结果有助于理解网络的度量学习属性，并引出由输入数据的结构决定的泛化误差的范围。

C. 信息论属性

网络架构的另一个关键属性是产生良好「数据表征」的能力。简单说，表征是对一个任务有用的输入数据的任意函数。比如，最佳表征是由信息论、复杂性或不变性标准 [13] 量化出的「最有用」的一个表征。这类似于系统的「状态」，智能体将其存储在内存中以代替数据来预测未来的观察结果。例如，卡尔曼滤波器的状态是用于预测由具有高斯噪声的线性动态系统生成数据的最佳表征；即用于预测的最小充分统计量。对于数据可能被不包含任务信息的「麻烦」所破坏的复杂任务，人们也可能希望这种表征对这种麻烦具有「不变性」，以免影响未来的预测。通常来说，任务的最佳表征可被定义为最小充分统计量，并且对影响未来（「测试」）数据的各种变化保持不变性 [14]。尽管研究者对表征学习有着强烈兴趣，但是解释深层网络作为构建最优表征的性能的综合理论尚不存在。事实上，即使是充分性和不变性这样的基本概念也得到了不同的对待 [9] [14] [15]。

近期研究 [16]、[17]、[18] 已经开始为深层网络学习的表征建立信息论基础，包括观察到信息瓶颈损失 [13]（它定义了最小充分性的宽松概念）可被用于计算最佳表征。信息瓶颈损失可重写为交叉熵项的总和，这正是深度学习中最常用的损失，带有一个额外的正则化项。后者可通过在学习表征中引入类似自适应 dropout 噪声的噪声来实现 [17]。由此产生的正则化形式在 [17] 中被称为信息 dropout，表明在资源受限的条件下学习可以得到改善，并可导致「最大分离式」表征（「maximally disentangled」representation），即表征的组成部分之间的（总）相关性是最小的，使得数据具有独立特征的特征指标。此外，类似技术表明针对对抗扰动的鲁棒性有所改善 [18]。因此，研究者期望信息论在形式化和分析深层表征的属性以及提出新型正则化项方面起到关键作用。

D. 优化

训练神经网络的经典方法是使用反向传播最小化（正则化）损失 [19]，它是一种专门用于神经网络的梯度下降方法。反向传播的现代版本依靠随机梯度下降（SGD）来高效近似海量数据集的梯度。虽然 SGD 仅用于严格分析凸损失函数 [20]，但在深度学习中，损失函数是网络参数的非凸函数，因此无法保证 SGD 能够找到全局最小值。

图 1：神经网络图示，其中 D = d_1 = 4 个输入，d_2 = 5 个隐藏层，C = d_3 = 2 个输出。输出可写为 y = (y_1, y_2) = ψ_2(ψ_1(xW^1 )W^2 )，其中 x = (x_1, . . . , x_4) 是输入，W^1 ∈ R^4×5 是从输入层到隐藏层的权重矩阵，W^2 ∈ R^5×2 是从隐藏层到输出层的权重矩阵，ψ_1 和 ψ_2 是激活函数。

实践中有大量证据表明 SGD 为深层网络提供良好的解决方案。最近关于理解训练质量的研究认为，临界点更可能是鞍点而不是假的局部极小值 [21]，局部极小值集中在全局最优值附近 [22]。近期研究还揭示了 SGD 发现的局部极小值带来参数空间非常平坦区域的良好泛化误差 [23]。这激励了 Entropy-SGD 等专用于寻找此类区域的算法，并从统计物理学中的二进制感知机分析中得出相似的结果 [24]。它们已被证明在深层网络上表现良好 [25]。令人惊讶的是，这些统计物理学技术与偏微分方程（PDE）的正则化属性密切相关 [26]。例如，局部熵——Entropy-SGD 最小化的损失，是 HamiltonJacobi-Bellman 偏微分方程的解，因此可写成一个惩罚贪婪梯度下降的随机最优控制问题。这个方向进一步导致具备良好经验性能的 SGD 变体和凸优化标准方法（如 infconvolutions 和近端方法（proximal methods）。研究人员现在才刚刚开始从拓扑方面阐释深层网络的损失函数，拓扑决定了优化的复杂性，而它们的几何结构似乎与分类器的泛化属性有关 [27] [28] [29]。

本文将概述近期的研究论文，展示深度学习等高维非凸优化问题的误差曲面具有一些良性属性。例如，[30]、[31] 的工作表明，对于某些类型的神经网络，其损失函数和正则化项都是相同程度的正齐次函数的和，多个分量为零或逼近为零的局部最优解也将是或逼近全局最优解。这些结果也将为正齐次函数 RELU 的成功提供一个可能的解释。除了深度学习，这个框架的特殊情况还包括矩阵分解和张量分解 [32]。

E. 论文大纲

本论文的其余部分安排如下。第二章介绍深层网络的输入输出图。第三章研究深层网络的训练问题，并为全局最优性建立条件。第四章研究散射网络的不变性和稳定性。第五章研究深层网络的结构属性，如嵌入的度量属性以及泛化误差的界限。第六章研究深度表征的信息论属性。

2. 预备工作

3. 深度学习中的全局最优性

本章研究从 N 个训练样本 (X, Y ) 中学习深层网络的参数。在分类设置中，X ∈ R^N×D 的每一行代表 R^D 中的一个数据点，Y ∈ {0, 1} ^ N×C 的每一行代表每个数据点与 C 类别的从属关系，即如果 X 的第 j 行属于类 c ∈ {1, . . . , C}，则 Y_jc = 1，反之，则 Y_jc = 0。在回归设置中，Y ∈ R^N×C 代表 X 行的因变量（dependent variable）。学习网络权重 W 的问题可以表述为以下优化问题：

其中是损失函数，用于评估真正输出 Y 和预测输出 Φ(X, W)（公式 (1)）之间的一致程度；Θ 是正则化函数，用于防止过拟合，如通过正则化执行的权重衰减；λ>0 是平衡参数。

A. 神经网络训练的非凸挑战

神经网络训练的重要挑战是（2）中的优化问题是非凸的，即使损失函数通常是 Φ 的凸函数，如平方损失；Φ(X, W) 通常是 W 的非凸函数，因其是（1）中 W_k 变量和非线性函数 ψ_k 的积。这对现有优化算法来说是一个巨大的挑战，如梯度下降、随机梯度下降、交替最小化、块坐标下降、反向传播、拟牛顿法等，这些优化算法通常只能确保收敛至目标函数的临界点 [33] [34] [35] [36]。

但是，对于非凸问题，临界点集不仅包括全局最小值，还包括局部极小值、局部极大值、鞍点和鞍点 plateaus，如图 2 所示。因此，非凸问题使该模型呈现一定的不适定性，因其不仅是重要的模型公式也是实现细节，如模型如何初始化以及优化算法的细节，这对模型性能产生很大影响。

图 2. 非凸函数的临界点示例（红色）。(a,c) plateaus；(b,d) 全局最小值；(e,g) 局部极大值；(f,h) 局部极小值。

B. 使用单个隐藏层的神经网络最优性

关于神经网络全局最优性的早期研究 [41] 展示了：使用线性激活函数和单个隐藏层的网络的平方损失有一个全局最小值，其他临界点均为鞍点。但是，[42] 中的网络示例证明，当激活函数非线性时，即使使用可分数据，网络中的反向传播算法 [19] 依然失败了。不过，这些网络示例不通用，[43]、[44] 展示了使用线性可分数据时，反向传播通常可以找到全局最小点。

C. 使用随机输入和权重的神经网络最优性

近期多个研究利用随机矩阵理论和统计物理学工具分析了多层神经网络的误差曲面。例如，[21] 的作者认为，在特定假设条件下，高维优化问题的临界点更有可能是鞍点而非局部极小点。

D. 正齐次性网络（positively homogeneous network）的全局最优性

近期研究 [30]、[31] 很大程度上沿用了上述论文的想法，但是使用的方法存在显著区别。具体来说，[30]、[31] 利用纯粹确定性方法分析了（2）中的优化问题，该方法不对输入数据分布、网络权重参数数据或网络初始化做任何假设。[30]、[31] 使用该方法证明只有鞍点和 plateaus 才是我们需要关心的临界点，因为对于足够规模的网络，不存在需要攀爬目标曲面再摆脱局部极小值（如图 2 中的 (f)、(h)）。

4. 深度学习中的几何稳定性

理解深度学习模型的重要问题是从数学角度定义其归纳偏置（inductive bias），即定义回归／分类任务的类别，这样它们可以实现优秀的性能，或至少比传统方法要好。

在计算机视觉任务中，卷积架构为最成功的深度学习视觉模型提供基础的归纳偏置。几何稳定性有助于我们理解其成功。

5. 深度学习基于结构的理论

A. 神经网络中的数据结构

理解深度学习的一个重要方面就是理解数据结构和深层网络之间的关系。对于正式分析来说，假设一个网络具备随机独立同分布高斯权重，这是深层网络训练中的常见初始化设置。近期研究 [56] 显示此类具备随机权重的网络将数据的度量结构沿层传播，实现网络计算特征的原始数据的稳定恢复，该特性经常会在一般深层网络中遇到 [57] [58]。

B. 泛化误差

上文说明数据结构和训练过程中获取的网络误差之间存在关系，这引发对深层网络的泛化误差与数据结构之间关系的研究。泛化误差——经验误差和期望误差之差，是统计学习理论中的基础概念。泛化误差有可能为利用训练样本学习的原因提供见解。

深度神经网络训练的必知技巧

作者：章华燕来源：机器学习算法全栈工程师

作者：章华燕

编辑：李文臣

本文主要介绍8种实现细节的技巧或tricks：数据增广、图像预处理、网络初始化、训练过程中的技巧、激活函数的选择、不同正则化方法、来自于数据的洞察、集成多个深度网络的方法。

数据增广

在不改变图像类别的情况下，增加数据量，能提高模型的泛化能力。图像识别领域数据增广的例子

自然图像的数据增广方式包括很多，如常用的水平翻转（horizontally flipping），一定程度的位移或者裁剪和颜色抖动（color jittering）。此外还可以尝试多种操作的组合，例如同时做旋转和随机尺度变换，此外还可以把每个patch中所有像素在HSV颜色空间中的饱和度和明度提升0.25-4次幂方，乘以0.7-1.4之间的一个因子，再加一个-0.1-0.1之间的值。同样你可以在色调通道（H）对每张图片或patch的所有像素增加一个-0.1~0.1之间的值。

预处理

2.1 最简单的预处理方法

· 零均值化

· 标准化

2.1.1 为什么要零均值化

数据有过大的均值可能导致参数的梯度过大，如果有后续的处理，可能要求数据零均值，比如PCA。零均值化并没有消除像素之间的相对差异，人们对图像信息的摄取通常来自于像素之间的相对色差，而不是像素值的高低。

2.1.2 为什么要归一化

归一化是为了让不同维度的数据具有相同的分布。假如二维数据（X1,X2）两个维度都服从均值为零的正态分布，但是X1方差为100，X2方差为1。那么对（X1,X2）进行随机采样在二维坐标系中绘制的图像，应该是狭长的椭圆形。
对这些数据做特征提取会用到以下形式的表达式：S=w1∗x1+w2∗x2+b

那么参数W1，W2的梯度为：

dS/dw1=x1;dS/dw2=x2

由于x1与x2在分布规模上的巨大差异，w1与w2的导数也会差异巨大。此时绘制目标函数（不是S）的曲面图，就像一个深邃的峡谷，沿着峡谷方向变化的是w2，坡度很小；在峡谷垂直方向变化的是w1，坡度非常陡峭，如图1，而我们期望的目标函数是图2这样的。

目标函数是非常难以优化的，因为w1和w2的梯度差异太大，所以在两个维度上需要不同的迭代方案。但在实际操作中，为了方便，我们通常为所有维度设置相同的步长，随着迭代的进行，步长的缩减在不同维度也是同步的。这就要求w不同纬度的分布规模大致相同，而这一切都始于数据的归一化。

2.1.3 实现代码

X-=numpy.mean(X,axis=0) # 即X的每一列都减去该列的均值

注：对于灰度图像，零均值化也可以减去整张图片的均值：X-=numpy.mean(X)

X/=numpy.std(X,axis=0) # 数据归一化。

X是输入数据，（图片数目X图片维度）。另一种标准化（normalize）方式是标准化每个维度，保证每个维度的最大值和最小值是-1和1。这种预处理的方式只在输入的各个特征的尺度或者单位不同时才有意义。以图片像素作为输入为例子，所有像素值尺度都在0-255这个尺度之间，所以没必要严格的执行这种预处理操作。在自然图像上进行训练时，可以不进行归一化操作，因为理论上图像任一部分的统计性质都应该和其他部分相同，图像的这种特性被称作平稳性（stationarity）

2.2 白化（Whitening）

白化相当于在零均值化和归一化操作之间插入一个旋转操作，将数据投影到主轴上。一张图片经过白化后，可以认为每个像素之间是统计独立的。然而白化很少在卷积神经网络中使用，可能原因是图像信息本来就是依靠像素之间的相对差异来体现的，白化让像素间去相关，让这种差异变得不确定，损失了信息。

首先将数据零均值化，再计算协方差矩阵（convariance matrix）来观察数据中的相关结构。

X-=np.mean(X,axis=0)

cov=np.dot(X.T,X)/X.shape[0] #计算协方差矩阵

然后做去相关操作,即通过将原始数据（零均值化后的数据）投影到特征基空间（eigenbasis）。

U,S,V=np.linalg.svd(cov) #计算数据协方差矩阵的奇异值分解（SVDfactorization）

Xrot=np.dot(X,U) #对数据去相关

最后一步变换是白化，即把特征基空间的数据除以每个维度的特征值来标准化尺度。

Xwhite=Xrot/np.sqrt(S+1e-5) #除以奇异值的平方根，注意到这里加了个1e-5是为了防止分母是0的情况。

PCA白化的一个缺点是会增加数据中的噪声，因为它把输入数据的所有维度都延伸到相同的大小，这些维度中就包含噪音维度（往往表现为不相关的且方差较小）。这种缺点在实际操作中可以通过把1e-5增大到一个更大的值来引入更强的平滑。

初始化

3.1 不要将参数全部初始化为零

几乎所有的CNN网络都是堆成结构，将参数零初始化会导致流过网络的数据也是对称的（都是零），并且没有办法在不受扰动的情况下打破这种数据对称，从而导致网络无法学习。

参数零初始化时，无论输入是什么，中间神经元的激活值都是相同的（任意一个神经元的激活值a=f(WTX),当权重W是零向量时，WTX也是零向量，因此经过激活函数后激活值都相同），反向传播过程中计算的梯度也是相同，每个权重参数的更新因此也是相同的，网络因此失去了不对称性。

3.2 用小的随机数初始化

初始化参数应该非常接近于零（但不全等于零），来打破网络的对称性。初始参数应该是随机且独立的来保证每个参数更新过程是不同的。给每个参数随机赋予一个接近零的值：

W=0.01*numpy.Random.randn（D,H）

randn方法生成一个零均值，方差为1的正态分布的随机数，同样也可以换用数值较小的均匀分布来产生初始化参数，但在实践中两种方法最终结果差别不大

3.3 方差归一化

用随机初始化方法来初始化参数会导致输出S的方差随输入数量(X或W向量的维度)增加而变大。
独立随机变量和的方差具有以下性质：

Var（A+B+C）=Var（A）+ Var（B）+ Var（C）

S = w1*x1 + w2*x2 +…+wi*xi+ b

S是多个随机变量的加权和,假设W各维度之间相互独立，随着数据维度增长，S的方差将会线性积累，由于数据的维度随任务的不同，是不可控的，所以我们希望将S的方差做归一化，这只需要对W做处理就可以了：

W=numpy.random.randn(n)/sqrt(n) #n是数据维度

上面操作是正确的推导过程：

令 n*Var(W) = 1，就得到std(W) = 1 / sqrt(n)。

注意：现在更多的论文中在实际中都在用ReLUs函数，针对ReLUs推荐：

w=numpy.random.randn(n)*sqrt(2.0/n)

训练过程中

4.1 卷积滤波器和池化层大小

输入数据最好是2的整数幂次方，比如32（CIFAR-10中图片尺寸），64，224（ImageNet中常见的尺寸）。此外采用较小尺寸的滤波器（例3x3），小的步长（例1）和0值填充，不仅会减少参数数量，还会提升整个网络的准确率。当用3x3的滤波器，步长为1，填充（pad）为1时，会保持图片或特征图的空间尺寸不变。池化层经常用的池化大小是2x2。

4.2 学习率

使用验证集是获得合适LR（Learning Rate）的有效手段。开始训练时，LR通常设为0.1。在实践中，当你观察到在验证集上的loss或者准确率不在变化时，将LR除以2或5后继续跑。

4.3 在预训练的模型上微调

很多state-of-the-arts deep networks的模型被开源出来，这些预训练的模型泛化能力（generalization abilities）很强，因此可以在这些模型的基础上根据自己的任务微调。微调涉及两个重要的因素：新数据集的大小和两个数据集的相似度。网络顶层特征包含更多dataset-specific特征。

	数据集相似性高	数据集相似性低
数据少	直接提取顶层特征来训练线性分类器	比较困难，尝试用不同层的特征训练一个线性分类器
数据多	用较小的学习率微调更多的层	用较小的学习率微调尽可能多的层

激活函数

激活函数用于在网络中引入非线性。sigmoid 与 tanh 曾经很流行，但现在很少用于视觉模型了，主要原因在于当输入的绝对值较大时，其梯度（导数）接近于零，这时参数几乎不再更新，梯度的反向传播过程将被中断，出现梯度消散的现象。

激活函数示意图

Sigmoid 激活函数

tanh 激活函数

ReLU 激活函数

ReLU 优点：

· 实现起来非常简单，加速了计算过程。

· 加速收敛，没有饱和问题，大大缓解了梯度消散的现象。

ReLU 缺点：

就是它可能会永远“死”掉，假如有一组二维数据 X（x1, x2）分布在 x1:[0,1], x2:[0,1] 的区域内，有一组参数 W（w1, w2）对 X 做线性变换，并将结果输入到ReLU。

F ＝ w1*x1 + w2*x2

如果 w1 = w2 = -1，那么无论 X 如何取值，F 必然小于等于零。那么 ReLU 函数对 F 的导数将永远为零。这个 ReLU 节点将永远不参与整个模型的学习过程。

为了解决ReLU 在负区间的导数为零的问题，人们发明了 Leaky ReLU, Parametric ReLU, Randomized ReLU 等变体，他们的中心思想都是为ReLU 函数在负区间赋予一定的斜率，从而让其导数不为零（这里设斜率为 alpha）。

Leaky ReLU 就是直接给 alpha 指定一个固定的值，整个模型都用这个斜率：
Parametric ReLU 将 alpha 作为一个参数，通过从数据中学习获取它的最优值。
Randomized ReLU 的alpha 是在规定的区间内随机选取的，在测试阶段是定值。
有学者将当前最优的两类CNN网络结合不同的激活函数在CIFAR-10,CIFAR-100和NDSB数据集上做实验，评价四种激活函数的优劣。实验结果表明Leaky ReLU取较大的alpha准确率更好。Parametric ReLU很容易在小数据集上过拟合（训练集上错误率最低，测试集上不理想），但依然比ReLU好。RReLU效果较好，实验表明它可以克服模型过拟合，这可能由于alpha选择的随机性。在实践中， Parametric ReLU 和 Randomized ReLU 都是可取的。

正则化(Regularizations)

以下是几种常用的方通过控制模型的容量来阻止神经网络的过拟合（Overfitting）。

6.1 L2正则化

L2正则化也许是最常用的正则化的形式。它可以通过将模型中所有的参数的平方级作为惩罚项加入到目标函数（objective）中来实现。也就是说，对网络中的每一个权重w，我们将其项12λw2加入到目标函数中，其中λ是正则化的强度参数。在惩罚项公式的前面加上12是很常见的，这样做的原因是因为优化函数12λw2 求导的时候不至于前面产生一个常数项因子2，而只是λw 这样简单的形式。对L2正则化的直观的解释是，L2正则化对尖峰向量的惩罚很强，并且倾向于分散权重的向量。

6.2 L1正则化

L1正则化是另一个相关的常见的正则化方式。这里，对于网络中的每一个权重w，我们都会加上一个项λ|w| 到目标函数中。L1正则化有一个非常有趣的属性，那就是它会使得权重向量w在优化期间变得稀疏（例如非常接近零向量）。带有L1正则化项结尾的神经网络仅仅使用它的最重要的并且接近常量的噪声的输入的一个稀疏的子集。相比之下，最终的权重向量从L2正则化通常是分散的、小数字。在实践中，如果你不关心明确的特征选择，可以预计L2正则化在L1的性能优越。

6.3 最大范数约束

正规化的另一种形式是实施绝对上限的大小在每个神经元的权向量中，利用投影梯度下降来强制约束。在实践中，这对应于执行参数正常更新，然后执行夹紧约束的vec { w }每个神经元的权向量满足平行vec { w } parallel_2 < c。典型的c值是3或4的订单。有些人报告改进在使用这种形式的正规化。其吸引人的特性之一是网络不能“爆炸”即使学习速率

6.4 Dropout

Dropout是一个极其有效的、简单的并且是最近才被提出的正则化技术作为以上三种正则化方法（L1、L2、最大范数约束）的补充。在训练期间，dropout能够被理解为在一个全连接的神经网络中的神经网络进行子采样，并且仅仅基于输入数据更新网络采样更新的参数。然而,该指数可能的取样数量,网络并不是独立的,因为他们共享参数。在测试过程中，dropout没有被使用。通过集成指数级的所有子网络解释预测的均值。实践过程中，dropout 的比率为 p=0.5是一个合理的默认值。但是这个值可以在验证数据上进行微调。

最流行使用的正则化技术Dropout

从数字中观察

7.1 从学习率观察

太高的学习率，loss曲线会很奇怪，很容易会出现参数爆炸现象；低学习率，loss下降很慢；高学习率，一开始loss会下降很快，但很容易跌入局部最小值；好的学习率应该平滑下降。

7.2 放大loss曲线观察

图2中横坐标是epoch（网络在整个训练集上完整的跑一遍的时间，所以每个epoch中会有多个mini batches），纵坐标是每个训练batch的分类loss。如果loss曲线表现出线性（下降缓慢）表明学习率太低；如果loss不再下降，表明学习率太高陷入局部最小值；曲线的宽度和batch size有关，如果宽度太宽，说明相邻batch间的变化太大，应该减小batch size。

7.3 从精确率曲线观察

图3中红色线是训练集上的精确率，绿色验证集上的精确率。当验证集上精确度收敛时，红线和绿线间隔过大很明显训练集上出现了过拟合。当两线间隔很小且准确率都很低时，说明模型学习能力太低，需要增加模型的capacity。

集成

在机器学习中，在训练多个学习器并将它们进行组合来使用是一种前沿的学习方法。众所周知，集成方法通常在得到更高的精确性的时候相比于单个学习器是至关重要的。并且，集成方法已经在现实任务中取得了伟大的成功。在实际应用中，尤其是挑战和竞赛中，几乎所有的第一和第二名获胜者都使用集成。

这里，我们介绍几个在深度学习场景中的集成技巧：

8.1 相同的模型，不同的初始化

使用交叉验证决定最优超参数，然后根据最好的超参数集训练多个方法，但是使用不同的随机初始化。这种方法的危险是模型的多样性仅仅取决于初始化。

8.2 交叉验证阶段的最优模型的发现

使用交叉验证决定最优超参数，然后选择少量几个效果最好的模型进行集成。这样改善了集成的多样性，但是他也有风险：例如局部最优。在实践中,这可以更容易执行，因为它不需要额外的培训交叉验证后的模型。事实上，你可以直接选择几个最先进的深度模型从 Caffe Model Zoo执行集成。

8.3 单个模型的不同检查点

如果训练的代价很高，有些人取得了有限的成功在不同的检查点的单一网络随时间(例如在每个阶段)和使用这些形成了一个整体。显然,这受制于某些缺乏多样性，但是在实践中仍然可以工作的很好。这种方法的优点是，非常简便。

中科院计算所研究员山世光：AI人才稀缺，开发任务繁重，限制了深度学习落地

钛媒体APP

钛媒体注：钛媒体T-EDGE国际年度盛典，作为钛媒体年度最重要、在科技领域最举足轻重的年度国际峰会，每一年年末希望能够对当年发生的和未来可能发生的做一些重要盘点和预判，同时，搭建一个平台通过线上线下交流，助力全球前沿创新者的价值发现与落地。

图像识别或者人脸识别是今年以来AI实现最大爆发的领域。对于这些技术的实现，中科院计算所研究员、中科视拓创始人、董事长兼CTO山世光，将其归结为一个简单的公式，那就是“A+B+C”。A是算法，B是Bigdata，C是Computing。

12月16日，在2017钛媒体T-EDGE年度国际盛典上，山世光提到，2012年之后，因为互联网和物联网的发展，我们有更多机会收集大量数据，再加上GPU等高性能计算设备的普及，我们有机会完成大规模的机器训练。特别的，上面ABC三点中的A，即算法，最主要的就是指深度学习（Deep Learning）。

深度学习在计算机视觉领域，解决了或者推动了一大类非线性的映射函数学习的问题。这样的方式，使AI开发的方法论产生了极大变化。

但与此同时，从落地角度来看，依赖于有标注大数据的深度学习也还存在非常多问题。

首先，个性化需求非常多，可批量复制的“标品”比较少。以巡逻机器人为例，可能需要开发塑料瓶子检测系统，也可能是塑料袋识别，甚至是烂白菜的识别，这么多不同的物体的识别是非常重的开发任务。

其次，从计算角度讲，深度学习的计算成本比较高，端侧的计算能力需求较大。而且AI技术的生产效率现在还比较低。如何加快生产效率，需要大量懂深度学习的专业算法人才，而现在并没有这么多的人才储备。

现阶段，AI人才奇缺。行业的硕士毕业生大概30-50万年薪，博士是50-80万年薪。对比人才数量的稀缺，开发任务却十分繁重，如果每个任务都做要3-5个月才能完成，这是"灾难性"的事情。（本文首发钛媒体，作者/张叶）

以下是中科视拓创始人董事长兼CTO山世光演讲发言，经钛媒体编辑发布：

非常荣幸有机会来到钛媒体今年的年度盛典给大家做一次分享。

如果说创业，我是一个新兵。我在中科院系统工作了20年，从事基础研究和应用技术研发工作。我今天的分享有很多内容跟技术相关。我演讲的题目叫《计算机视觉技术现状展望和产业化》。

首先，我们说计算机视觉是什么样的学科，要做什么的事情？

很多人不了解这件事为什么那么难？如果看一下我们需要处理的对象，就会发现它确实是非常难的任务。

我们所谓的图像是用摄像头来捕捉物体表面反射的不同颜色的光，进行采样，每个点即像素都用红绿蓝三个不同的分量数值表示不同的颜色。所以，到了计算机里面，每幅图像就是很多很多0-255之间的整数值。大家看这些数。相信没有一个人在非常短的时间内，能够通过观察这些数告诉我图像里的内容是什么。计算机视觉要完成的就是这样的任务，通过对这些数的分析完成对图像内容的理解。

这次人工智能的浪潮，首先在语音识别和图像识别领域取得了显著的进步，并进一步引发了AI在更多领域的应用。

从图像识别或计算机视觉角度讲，在2012年，深度学习首次在Imagnet评测数据集上应用，一下子将分类错误率降低了10个百分点。从图像分类的角度来讲，在2011年，图像分类错误率是26%，到了2012年，利用深度学习之后，下降到16%。到了2016年，随着深度学习模型深度不断加深，错误率进一步下降到了2.3%。也就是说，大概在5年时间里，图像识别率的错误率降低了10倍。

下面是其他五个深度学习带来重要进步的典型例子。

在物体检测领域。所谓物体检测就是提供给一张照片，把照片里不同的物体，如车、人等物体框出来。2013年，在Imagnet测试集上检测正确率只有23%，到了2017年，正确率达到了73%，在视频里寻找30类物体也达到80%的精度。
在视频监控领域，我们希望能够对人、车、物进行检测识别，利用深度学习，现在很多系统包括中科视拓的技术都可以实现对人、车、骑行的准确检测、跟踪以及对性别、车型等属性的大致分类。
在图像分割领域，例如为了实现自动驾驶，给一幅图像之后，我们希望算法能够知道哪块是道路、哪块是树木、哪块是建筑，这是一个分割问题。从2013年到2017年，分割的准确率也从50%提高到了86.9%。
还有一个任务从2015年左右才开始逐渐得到重视，即所谓的“看图作文”，就是在提供一幅图像之后，希望计算机能够生成一句或一段文本描述图像里的内容。在过去两三年里，这一技术得到了非常大的进步，有些系统产生的文本描述已经可以和人对这个图像的描述媲美，甚至有些普通人已经不能够判断到底是机器自动生成的一段话，还是真人写出来的一段话。实现这一任务采用的方法也是以深度学习为基础的。
还有一些类似艺术创作的技术进展，比如我们可以通过计算给一幅图像转化风格，把一个人的头发颜色改掉，加上一个刘海，或者加上眼镜，所产生的图像可以以假乱真；我们也可以把一副普通的图像变成莫奈风格的油画，把马变成斑马，把冬天的照片变成夏天的照片。

上个月，iPhone X的发布使我们进一步对人脸识别应用有了更加深刻的认识。其实在人脸识别领域，过去两到三年，也出现了2-4个数量级的错误率下降。苹果声称iPhone X所采用的FaceID错误率大概在百万分之一，意味着如果有一百万个人捡到你的手机，只有一个人可以冒充你解锁成功。因为它采用的传感器是RGBD相机，里面不仅有彩色照片，还有深度信息、近红外信息，同时在注册阶段也会捕捉你的多幅照片，以及在识别阶段也是近距离进场的识别等等，这些方式都使得iPhone X的FaceID识别任务成为人脸识别领域一个相对比较容易的任务。其实三星Note3几年前就已经可以用人脸识别解锁，华为也在去年与我们合作将人脸识别应用到了其荣耀Magic手机上去实现对手机的半解锁。

其实人脸识别有非常多不同的应用场景，手机的应用只是其中之一，即使是一比一验证你是不是你的任务，也有不同的应用场景。比如，在机场、车站等应用场景，用身份证中的卡内人脸照片和持卡人人脸比对，在过去3-4年里错误率大概下降了2-4个数量级，达到了万分之一甚至更低的错误率，即有一万个人试图冒充你，只有一个人可能成功，在这种情况下，本人持自己身份证可以有95%以上的正确识别率。企业员工刷卡后进行人脸验证的正确率则可以高达99%。

对于这些技术背后的AI，如果我们用一个简单的公式来表达，那就是“A+B+C”。A是Algorithm即算法，B是Bigdata大数据，C是算力Computing。我想这样的公式或这样的说法，最近一段时间大家都越来越熟悉了。这三者中，A即算法，最主要的就是指深度学习算法了。

所谓深度学习其实并不是新的技术，在上世纪八十年代中后期的时候，理论、方法就基本成熟，但因为当时没有大量数据，没有足够强的计算能力，这就使在当时我们不可能发挥它的作用。

2012年之后，因为互联网和物联网的发展，使我们有更多机会收集大量数据，再加上有GPU等平民化高性能计算设备的出现，使我们有机会完成大规模的深度学习算法的训练。

深度学习在计算机视觉领域，解决了或者至少推动了一大类非线性的映射函数学习的问题。换句话说，给我们一张照片，这些照片就是一些数值，形成输入x，我们通过深度模型学习一个F函数，用F作用于x，即F(x)得到我们想要得到的Y，这个Y可能是一个标签（比如猫，狗），也可能是我们想要分割的结果。

这样的方式，使我们做AI的方法论产生了极大变化。从过去，我们大量依赖人类专家知识来设计算法，到现在，变成有大监督大数据驱动的方法为主。

以一个具体的应用需求为例（从客户那挖掘出来的案例）。

我们一个客户做了小区巡逻机器人，物业希望这个机器人可以帮助解决小区管理中的一个痛点问题。小区里经常有小狗乱拉屎，所以物业需要一个狗屎检测系统。这样的话，巡逻机器人可以及时发现这样的垃圾，然后“报警”，由保洁及时来清除掉。

在没有深度学习的时候，我们需要做的是：

第一步，收集一定量的包含狗屎的图像数据。
第二步，人工设计或选择一些特征。
第三步，选择某种分类器在收集的数据集合上测试它，看它效果好不好。如果不够好就回到第二步，不断进行反馈和调整。

这是一个人工设计特征的过程，这样的方式非常耗时，非常不高效。我们做人脸检测花了20年，做行人车辆检测大概花了10年，即使狗屎检测相对容易，可能也需要至少一年。深度学习来了之后，整个过程变得很不一样。如果我们采用众包等方式，可能在一个月时间里就可以收集上万张标注了狗屎的照片，然后算法工程师可以根据经验选择一个深度学习算法，并设定一些超参数，然后只需要让机器在收集的数据集上进行训练和学习就可以了，这个过程可以非常快速的完成，大概只需要三个月。从过去的数年到现在的数月，显然大大提高了我们研发一项AI技术的效率。

这样的方法论极大的提高了视觉技术的水平和落地效率。

我认为很多场景下能看的AI才有真的智能。所以，视觉智能会有大量场景化需求，如果我们去细看每一个领域，从公共安全、机器人、自动驾驶、无人机到医疗，每个领域我们都可以非常轻易的发现视觉的用武之地。如果AI有一双眼睛（也就是有摄像头），我们背后有合适的算法，机器就可以更多的替换或者辅助人更好、更高效的做我们想要它做的事情。

但从落地角度来讲，也存在非常多问题。

问题一：个性化需求非常多，可批量复制的“标品”比较少。

以“狗屎”识别机器人为例，可能明天还需要一个塑料瓶子检测，后天是塑料袋识别，再后天是白菜识别，这么多不同的物体，如果我们都采用前面说的那种开发方式，每种东西需要至少三个月，那么我们就会面临非常重的开发任务，关键是现在并没有这么多人才可以去做这么多事。

从落地角度来看，谁来做、谁去买单、谁去开发算法，采用什么样的商业模式和合作模式都是问题。

问题二：从计算力角度讲，深度学习的计算成本相对比较高。时间关系不展开介绍了，最近很多的AI专用芯片市场就是在解决这类问题。

AI技术的生产效率现在是比较低的，我们要加快生产效率，就需要人力，需要高水平的AI算法人才。可是AI的人才奇缺。现在深度学习专业硕士毕业生可以拿到30-50万年薪，博士则可以高达50-80万年薪。在座的女孩们，如果没有男朋友的话，到我们这个领域看一看。

相比可用的人才数量，这么多的视觉处理任务，如果每个任务都要2个硕士博士做3-5个月才能完成，这将是灾难性的事情。

所以，未来我们需要新的方法论，从现在有监督大数据驱动的方法论，变成知识和数据联合驱动的方法论，为了完成这些事情，我们需要更强大的机器学习方法。使得我们在不同数据条件下也可以获得稳定、可靠的识别能力，这就体现在我们可能需要利用小数据、脏数据进行机器学习。

此外，用来学习的数据还可能是半监督的数据、弱监督的数据，比如给你一张照片告诉你其中有狗屎，但并没有明确告诉你这个狗屎在什么位置，如果我们能有可以充分利用这些数据的更好的机器学习方法，我们才可能更加快速的开发AI技术。

这还不够，我们还希望有更快捷的AI开发方法。比如我们希望开发一个安全帽检测的引擎，这是实际需求。我们一旦把这个任务交给机器之后，希望AI生产平台可以全自动完成全部的开发过程。机器完成这个任务的可能流程是：首先，它会理解这是一个检测任务，检测目标是安全帽，然后机器自动在百度上去搜索大量安全帽的图像，然后在百度上搜索一些关于安全帽的知识描述，例如安全帽多数是圆的，颜色各异，经常戴在人头上等等。然后，算法就通过对这样一些数据的自动处理和学习，以及知识的利用完成一个“安全帽检测”AI引擎的开发。

遗憾的是，从算法的角度来讲，以我对该领域学术前沿的了解，要达到这样的目标我们可能还需要5-10年，还不一定100%完全做到那种程度。

在此之前，工业界最靠谱的做法恐怕还是采用“数据暴力”来完成多数类似AI任务的研发。但我们如何解决缺少大量AI算法工程师的问题呢？我认为我们需要一个更强大、更便捷的AI算法生产基础设施。这样的基础设施，就像当年从专业相机到傻瓜相机的历史演变一样。

为了让我们有更多的人才可以开发AI，以满足大量的视觉智能开发任务，我们的AI生产工具要从Caffe，Mxnet和Tensorflow等只能昂贵的高端人才可以使用的开发工具发展到“傻瓜式”的AI开发平台。这样的平台应该使更多的中低端人才，即使不懂AI、不懂深度学习，也可以经过简单的培训，就可以利用自己的私有数据，在这样的软硬建基础设施平台上，方便快捷的开发出自己所需要的AI技术引擎，并便捷的嵌入自己的业务系统中。

我作为主要创始人成立的中科视拓，自去年8月成立以来，不仅做了大量人脸识别、无人机视觉等计算机视觉技术服务项目，开发了多款人脸识别产品和解决方案。与此同时，我们已经研发了一个称为SeeTaaS的深度学习算法开发平台，这个平台不但在我们公司内部逐步得到了应用，也已经开始提供给我们的B端客户，使他们也具备了用自己的私有数据训练自己所需的深度学习算法和引擎的能力。相信这个SeeTaaS平台会越来越好用，最终实现我们“让天下没有难开发的AI”这一梦想！

谢谢大家！

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。