鄂维南院士:机器学习的数学理论和科学应用

鄂维南院士:机器学习的数学理论和科学应用

本文是鄂维南院士2019年获得Peter Henrici奖时在国际工业与应用数学大会上所做的报告。由于能力有限,翻译中可能有不少错误。获取报告英文版pdf文件在本公众号回复"鄂院士报告"。

本文是2019年7月在西班牙瓦伦西亚举办的国际工业与应用数学大会上Peter Henrici奖讲座的报告。本报告将对以下内容做一个广泛的综述:

  • 当前一些结合机器学习和科学建模(例如基于物理的建模)的工作,用于解决多个学科中最具有挑战性的问题。
  • 当前一些建立机器学习的数学理论的工作。

通过本报告,我主要希望传达两个方面的信息。首先,在理论、计算科学和工程中,我们面临的一个基础的障碍是对高维数据的处理能力相当有限。机器学习提供了解决这个问题的新工具。将机器学习引入到科学建模将会给我们提供意想不到的能力,甚至很可能会改变我们做科学和工程的方式。

其次,虽然到目前为止机器学习并没有成为应用数学最主流的领域,但是其思想与数值计算是非常一致的。有一点不同,就是机器学习还必须关注维度非常高的问题。要建立机器学习的数学理论,我们需要发展高维数值分析。

1 偏微分方程和物理学基本定律

数学的一个最重要的作用是为表述物理基本定律提供语言。这些定律通常用偏微分方程来表达。其中两个最重要的偏微分方程是量子力学中的薛定谔方程和流体力学中的纳维-斯托克斯(Navier–Stokes)方程。其他例子还包括用于动力学理论的Boltzmann方程,线性和非线性弹性方程,以及用于电磁的Maxwell方程。

早在1929年量子力学刚刚建立时,狄拉克就做了如下观察:

大部分物理学和整个化学的数学理论所需要的基本物理学定律就这样完全知道了,困难只是这些定律的应用带来了太复杂的计算。

基本上,狄拉克是说对于我们在实践中遇到的大部分情况,困难已经不在于寻找基本定律的物理问题,而在于求解表述这些定律的偏微分方程的数学问题。

2 以往的成功与失败

这些基本定律确立之后的几年里,一些工作侧重于用分析方法来寻找近似模型或近似解。例如费米和托马斯在同一年提出了密度泛函理论(DFT),这是量子机制的一种简化模型。多年后这一理论发展成为计算材料科学和化学的重要内容。其中的主要贡献者科恩(Walter Kohn)还获得了1998年的诺贝尔化学奖。尽管它们在实际中被大量使用,但许多这样的近似模型是非常特殊的,并且包含不受控制的近似。在应用数学界,人们发展了渐近方法来寻找近似解,结果好坏参半。

2.1 数值方法求解微分方程

第一个通用的求解微分方程的方法出现在20世纪50年代现代计算机发明以后。在当时以及此后的一段时间,数值算法、特别是有限差分法和有限元法,被发展、分析,并被应用到各种各样的问题。直到今天,这也是一项非常成功的活动。这些数值方法非常强大,已经成为工程和一些科学学科的标准工具。许多问题已基本得到了解决,包括气体动力学、结构分析、雷达和声呐等领域的问题。

然而很多问题依然十分困难。这些问题的例子包括:经典或量子多体问题、基于第一性原理的药物和材料设计、蛋白质折叠、湍流、塑性和非牛顿流体。它们的一个共同特点是解在本质上依赖于许多变量。例如,尽管Navier-Stokes方程描述的湍流是一个三维问题,但其解包含许多主动尺度,这意味着涉及许多自由度。维度灾难是这些问题的困难的根本来源。维度灾难是指随着维度(例如变量数量或者自由度)的增多,问题的复杂度(或者计算代价)呈指数级增长。它是一大类应用的一个重要障碍。

2.2 多尺度建模

第二个重要进展是多尺度、多物理算法的发展。在这里,我们感兴趣的是对一些宏观系统建模,但是我们缺少这种尺度的可靠物理模型。取而代之的是,我们在更小的尺度上拥有一个可靠的微尺度模型,但是却包含更多的自由度。主要的想法是仅仅使用微尺度模型开发能够对宏观系统建模的算法。这种方法的重要工作包括异质多尺度方法(HMM)、无方程方法和准连续体方法[8]。HMM从包含未知量的宏观模型的规定形式开始,并在计算过程中使用微观模型动态估计这些量的值。对于宏观和微观尺度过程之间存在尺度分离的问题,这种方法已经相当成功。然而,对于缺乏尺度分离的问题来说,成功是相当有限的。

在HMM的早期,人们已经意识到,利用微观尺度模拟获得的数据估计宏观模型中的未知量是困难的,特别是对于没有尺度分离的问题。假设我们要建立湍流的大尺度动力学模型,并使用大涡模拟模型作为宏观模型。这里的未知量是Leonard应力,即未解析自由度对平均应力的贡献,必须从原始的Navier-Stokes方程中估计。这里的困难在于Leonard应力依赖于许多自由度,因此从Navier-Stokes方程估计它是一项非常困难的任务。

3 结合机器学习与基于第一性原理的建模

这些问题的主要困难来源于维度灾难,即我们处理多变量函数的能力有限。近年来,机器学习,特别是深度学习,成功地解决了计算机视觉和其他人工智能任务中的此类问题。我们很自然地会问,对前文提到的各类应用,或者更一般地,对于传统人工智能之外的应用,机器学习是否有助于克服其中的类似困难?下面我们介绍一些在这方面取得初步成功的例子。

在进一步讨论之前,先看看我们这里考虑的应用的机器学习任务与传统人工智能任务之间的区别。

第一个区别是,我们感兴趣的是使用机器学习来帮助建立可靠且实用的物理模型。这些模型不应违背物理上的约束,如对称性和不变性。

第二个区别是,用来训练机器学习模型的数据往往是由某种(微观尺度)物理模型生成的。原则上我们可以生成无限量的数据,但实际上生成数据的过程通常非常昂贵。因此,需要能够提供“最优数据集”的算法:数据集在涵盖我们感兴趣的所有实际情况的基础上尽量越小越好。这属于主动学习(active learning)的范畴。也可以认为是一种自适应算法,因为数据的采样是自适应的。

开发基于机器学习的物理模型必须解决上面两个一般问题。

3.1 分子动力学

分子动力学的目标是通过跟踪系统中所有原子核的运动轨迹来模拟分子或物质系统。因此一个合理的近似是使用经典牛顿动力学,原子间势能由所有参与原子核的位置和相关电子结构决定。对原子间势能函数(一个多变量函数,也称为势能面,简称PES)进行建模,是分子建模中的一个主要困难。

解决这个问题,主要有两种不同的方法。 一种是使用量子力学模型(通常是DFT)来动态估计这个函数,称为从头算分子动力学(AIMD)(见[8])。第二种方法是使用一个猜测的函数形式和一些有限的实验和数值数据来经验地构造这个函数。

第一种方法相当精确,但非常昂贵,限制了系统的规模,一次只能对几百个原子进行建模。第二种方法效率更高,但精度较低。

利用机器学习,可以设想一种新的分子动力学范式。在这个新范式中,量子力学模型作为数据的生成器,而机器学习用于参数化PES。这种新的方法可能提供一种执行分子动力学的途径,其精度与AIMD相当,但复杂性与经验方法相当。

关于前面提出的两个一般问题。这个问题的重要对称性是平移对称、旋转对称和置换对称。置换对称是指,如果重新标记同一物种的原子,系统不会改变,因此PES也应该保持不变。

为了保证在三种对称性下的不变性和可伸缩性,对神经网络结构提出了以下设计原则[5,17]:

  1. 整个网络是子网络的叠加,每个子网络对应于系统中的一个核,这保证了可伸缩性。然而,这种结构不适合表示长距离的交互作用。
  2. 每个子网由一个编码网络和一个拟合网络组成。编码网络确保进入拟合网络的数据满足对称性约束。

在[18]中提出的主动学习算法由三个主要部分组成。

  • 探索:宏观上,对热力学空间的变量(例如温度和压力)进行采样。 微观上,对每一组固定的热力学变量的正则系综进行采样。 两者都可以通过标准方法来实现。
  • 标记:使用一个误差估计器决定是否对特定原子配置进行标记。一个简单的误差估计器可以如下设计。训练一组神经网络模型(例如结构相同初始值不同),使用它们的预测方差作为误差估计器。较大的误差估计值意味着当前网络模型对于所考虑的配置不够精确。因此,需要标记此配置并将其放入重新训练的数据集。
    • 对于每一个需要标记的配置,使用DFT评估其势能和作用在原子核上的力,然后将结果放入训练集。


  • 训练:通过拟合数据集中的能量和力来更新网络参数。

一旦指定了感兴趣的系统,就可以从完全没有数据开始,算法将不断改进模型,直到达到满意的精度。一些例子参考<[18]。研究发现,只有0.01%的配置需要标记。

到目前为止,这些思想已经被应用到各种各样的系统中,包括小分子和大分子、水、半导体、表面材料和高熵合金等。在每一种情况下,都可以获得与DFT相当精度的机器学习模型。此外,我们还开发了一个名为DeePMD-kit的通用软件,并已被全球多个团队使用[16]。

3.2 模拟气体动力学

气体动力学由描述单粒子相空间分布函数演化的Boltzmann方程模拟。对于稠密气体,可以用欧拉方程精确近似Boltzmann方程,来描述空间中密度、动量和能量分布的演变。控制这种近似的一个关键量是克努森数(Knudsen number),它是气体平均自由程和系统典型长度尺度之间的比率。当克努森数很小时,欧拉方程是一个精确近似。在这种情况下,单粒子分布函数保持接近所谓的局部麦克斯韦分布。欧拉方程是通过将玻尔兹曼方程投影到其0阶、1阶和2阶矩的轨迹上得到的[2]。

大量的工作通过在投影模式中加入更多的矩来扩展欧拉或类欧拉方程,来实现对更大克努森数时的有效性。这些工作遇到了以下两大困难[6]:

  1. 得到的力矩方程不适定。例如,众所周知Grad的13矩方程在状态空间的某些区域不是双曲的。
  2. 封闭问题:要得到封闭方程,需要逼近投影系统中出现的高阶矩项。当克努森数较大时,局部麦克斯韦分布不能作为关闭系统的假设。

机器学习为构造在广泛的克努森数范围内一致精确的(广义)矩模型提供了一些希望,如[12]所示。分两步完成:

  1. 学习一组最能代表分布函数的广义矩。这样做的一种方法是通过一个自动编码器来最小化分布函数的重构误差。
  2. 学习这组广义矩的动力学。动力方程中出现的项都可以用分布函数来表示。通过有监督学习可以找到这些项的近似值。

主要的问题是如何保持物理对称性,如何通过微观模型获得数据集,这里是玻尔兹曼方程。与前面的例子相比,我们得到了一个新的动态对称性,伽利略不变性。事实上,就机器学习而言,前面的例子是学习一个函数的更为传统的例子;现在的例子是学习一个新的动力系统。初步测试表明,这种方法有很多希望[12]。这也是一个没有尺度分离的问题的多尺度建模的例子。

3.3 高维偏微分方程

高维偏微分方程的求解是一个经典的产生维数灾难问题的例子。线性抛物型偏微分方程存在一个例外情况。在这种情况下,我们可以使用费曼-卡茨公式[14]将解表示为布朗路径的一个泛函的期望,并应用蒙特卡洛方法对解进行评估。对于非线性抛物型偏微分方程,使用倒向随机微分方程(BSDE)来模拟费曼-卡茨公式[14]。

这使得我们能够制定一个求解非线性抛物型方程的算法。在这个算法中,离散时间片上的解的梯度是用神经网络来逼近的。然后使用BSDE公式(其离散形式)在指定的时空位置计算解,并使用近似解与给定结束(或初始)条件之间的差异作为损失函数来训练网络参数[9]。该算法已被证明是非常成功的,可用于求解高维的一类非线性抛物型偏微分方程和倒向随机偏微分方程。

一个副产品是,倒向随机偏微分方程这一用于金融、经济、随机控制和其他应用的优雅数学工具,现在已经成为一个强大的实用工具。在期权定价的非线性Black-Scholes方程中发现了这些思想的一个应用,例如违约风险。

3.4 自然语言的数学原理

机器学习的成功引发了语言学和自然语言处理之间的一些摩擦。一方面,自然语言处理在机器翻译和其他实际工作中取得了令人印象深刻的成就,这一事实引起了人们对语言学实用价值的质疑。另一方面,机器学习方法的效率也受到质疑,因为它需要大量的训练数据,这看起来远远超过人类所需要的。此外,NLP算法的黑箱性质也是一个值得关注的问题。因此,有必要开发自然语言的定量结构模型,以帮助弥合语言学与自然语言处理之间的鸿沟。

此外,自然语言的数学模型也有其自身的价值。例如,自然语言处理和语言学中,一个共同的重要问题就是如何定义语义(semantics)。为了解决这些问题,最终不得不求助于数学模型。

语言表现出许多尺度,如单词、句子和段落。不同的尺度需要不同的结构模型。在较小的尺度上(例如单词和句子),不同的语言表现出多样性和不规则性。然而,在较长的尺度上,不同的语言表现出显著的普遍性。这种普遍性是语言之间可以相互翻译的基础[11]。

语义的一个数学上有吸引力的定义是翻译后的不变性。如果我们将翻译视为不同语言之间的运算符,那么在翻译之后保留语义的事实意味着不同语言的生成器是相似的:

_A _{A \rightarrow B} = _{A \rightarrow B} _B. \\

其中 _A _B分别表示语言AB的生成器,而 _{A \rightarrow B}是翻译运算符。 _A _B的谱必须相同。

挑战在于如何将这些直观的具有吸引力的的陈述转化为数学模型。文章[11]进行了初步尝试。除了证实了上述不变性外,还提供了一个定量的结构模型,似乎能够捕捉到某些句际(intersentence)尺度下的动态变化。一个副产品是,人们可以使用这个结构模型来开发具有最先进性能的机器翻译算法,但使用的训练样本要小得多。

4 机器学习的数学理论

我们将关注有监督学习问题,它有一个相当清晰的数学图景。但是我们相信这里讨论的思想体系对无监督学习和强化学习同样适用。

简单地说,有监督学习问题是使用有限的函数值样本来逼近给定的目标函数。将目标函数记为f^*:\mathbb{R}^d \rightarrow \mathbb{R}^1,假设\{\mathbf{x}\}_{j=1}^{n}为从某个分布u中独立采样的数据集。对于j=1,\dots,n,记y_j = f^*(\mathbf{x}_j)。为了便于表述,我们将忽略测量噪声,因为增加测量噪声通常不会从本质上改变我们的论述。我们的任务是使用S=\{(\mathbf{x}_j,y_j)\}_{j=1}^{n}来逼近f^*。这是通过以下两个步骤来完成的:

  1. 建立某个“假设空间”(一组函数)\mathcal{H}_m=\{f(\cdot,\mathbf{\theta})\},其中m是假设空间\mathcal{H}的维度,\mathbf{\theta}\mathcal{H}_m中特定函数对应的参数。
  2. 在假设空间中最小化以下“经验风险”:

\begin{align*} \hat{\mathcal{R}}_n(\mathbf{\theta})=&\frac{1}{n}\sum_{j}(f(\mathbf{x}_j,\mathbf{\theta})-y_j)^2\\ =&\frac{1}{n}\sum_{j}(f(\mathbf{x}_j,\mathbf{\theta})-f^*(\mathbf{x}_j))^2 \end{align*} \\

假设空间的典型例子包括:

  • 线性回归:

f(\mathbf{x},\mathbf{\theta})=\mathbf{\beta}\cdot \mathbf{x} + \beta_0, \mathbf{\theta}=(\mathbf{\beta},\beta_0). \\

  • 广义线性模型:

f(\mathbf{x},\mathbf{\theta})=\sum_{k=1}^m c_k\phi_k(\mathbf{x}),\quad\mathbf{\theta}=(c_1,c_2,\dots,c_m). \\

其中\{\phi_k\}为一组线性无关函数。

  • 两层神经网络:

f(\mathbf{x},\mathbf{\theta})=\sum_k a_k \sigma(\mathbf{b}_k \cdot \mathbf{x}+c_k),\quad \mathbf{\theta}=\{a_k,\mathbf{b}_k,c_k\}. \\

其中\sigma是某个非线性标量函数,例如\sigma(z)=\max(z,0)

  • 深层神经网络(DNN):上述形式的函数的复合。

函数逼近是经典数值分析和逼近论中的一个研究热点。标准的技术路线如下:

  • 定义一个适定(well-posed)的数学模型。这包括指定假设空间和损失函数。例如,对于一维三次样条,假设空间由\mathcal{C}^1分段三次多项式组成。损失函数为

I_n(f) = \frac{1}{n}\sum_{j=1}^{n}(f(x_j)-y_j)^2 + \lambda \int |f''(x)|^2dx. \\

  • 识别正确的函数空间,例如Sobolev/Besov空间。在函数空间中,正逼近定理和逆逼近定理(也称为Bernstein和Jackson型定理)都成立。也就是说,一个函数在一个特定的函数空间中,当且仅当它可以用给定的逼近格式以指定的精度逼近。
  • 推导最佳误差估计。误差估计有两种。在先验估计中,误差界取决于目标函数的范数。在后验估计中,误差界取决于数值逼近的范数。例如,对于分段线性有限元,典型的先验和后验估计形式为(\alpha=1/d,s=2):

\|f_m - f^*\|_{H^1} \leq Cm^{-\alpha}\|f^*\|_{H^s}, \\\|f_m - f^*\|_{H^1} \leq Cm^{-\alpha}\|f_m\|_h. \\

其中\|\cdot\|_{H^s}为s阶Sobolev范数,\|\cdot\|_h为典型的网格相关范数[1]。

这一经典设置与机器学习有两大区别。首先,在机器学习中,我们必须处理非常高的维数。我们已经可以看到,上述估计值会遇到维度灾难问题。我们感兴趣的是没有维度灾难问题的机器学习模型。

第二,在机器学习中我们只有有限的数据。因此只能处理经验风险(empirical risk)。然而我们真正感兴趣的是结构风险(population risk):

\mathcal{R}(\mathbf{\theta} )= \mathbb{E}(f(\mathbf{x},\mathbf{\theta}) - f^*(\mathbf{x}))^2=\int_{\mathbb{R}^d}(f(\mathbf{x},\mathbf{\theta}) - f^*(\mathbf{x}))^2d\mathbf{\mu}. \\

经验风险和结构风险之间的差异,有时被称为泛化鸿沟,它是我们必须处理的另一个关键问题。事实证明,维度灾难问题也出现在这里。

为了理解这些问题,让我们来看看广义线性模型的一个简单例子。在这种情况下,假设空间为

f(\mathbf{x},\mathbf{\theta})=\sum_{k=1}^m a_k\phi_k(\mathbf{x}),\mathbf{\theta}=(a_1,a_2,\cdots,a_m), \\

其中\{\phi_k\}是一组线性无关函数。我们考虑m > n的情况。要拟合数据,例如将经验风险减小到其全局最小值0,只需选择满足以下条件的\mathbf{\theta}

\mathbf{G} \mathbf{\theta}^{T} = \mathbf{y}, \\

其中\mathbf{G} =(\phi_k(\mathbf{x}_j)),\mathbf{y}=(y_1,y_2,\dots,y_n)^T。这是一个未知量比方程多的线性系统。除非\mathbf{G}是退化的,否则存在无穷多个解。可以证明,如果将\mathbf{\theta}选择为上述线性系统的解中欧式范数最小的解,则

\sup\limits_{\|f\|_{\mathcal{B}_1} \leq 1 } \inf\limits_{h \in \mathcal{H}_m} \|f - h\|_{L^2(D_0)} \geq \frac{\mathcal{C}}{dm^{1/d}}, \\

显示了维度灾难问题。这里\mathcal{B_1}是[10]中定义的Barron空间。在这个例子里,即使经验风险为0,结构风险也可能非常大。

对于高维问题,一个重要的基准是积分问题。假设我们要估计积分的近似值

I(g)=\int g(\mathbb{x}) d\mathbb{\mu}. \\

众所周知,辛普森法则这样的积分法则遇到了维度灾难问题。然而,蒙特卡洛方法确不存在这个问题。假设\{\mathbb{x}_j,j=1,\dots,n\}是一组从\mathbb{\mu}中抽样的一组独立随机变量,且

I_n(g)=\frac{1}{n}\sum_{j=1}^{n}g(\mathbb{x}_j). \\

那么,以下等式成立

\mathbb{E}(I(g) - I_n(g))^2 = \frac{1}{n}\text{var}(g), (1) \\

其中\text{var}(g)=\int_Xg^2(\mathbb{x})d\mathbb{\mu}-(\int_Xg(\mathbb{x})d\mathbb{\mu})^2。注意这里n的指数与d无关。在一些典型的应用(例如统计物理)中,\text{var}(g)在高维情况下会很大。因此,蒙特卡洛方法一个主要关注点是降低方差。

我们再来看泛化鸿沟:

\mathcal{R}(\hat{\mathbb{\theta}})- \hat{\mathcal{R}}_n(\hat{\mathbb{\theta}})= I(g) - I_n(g), \\g(\mathbb{x})= (f(\mathbf{x},\hat{\mathbf{\theta}}) - f^*(\mathbf{x}))^2, \\

其中\hat{\mathbf{\theta}}=\text{argmin}\hat{\mathcal{R}}(\mathbb{\theta})。注意,在这里函数g与数据是高度相关的,因此等式(1)不再成立。一种对泛化鸿沟定界的方法是在假设空间中估计I(g) - I_n(g)的上确界。例如:

  • 对于Lipschitz函数(与Wasserstein距离相关):

\sup \limits_{\|h\|_{Lip} \leq 1}|I(h)-I_n(h)| \sim \frac{1}{n^{1/d}}, \\

  • 对于Barron空间中的函数(参见文献[10]):

\sup \limits_{\|h\|_{\mathcal{B}_1} \leq 1}|I(h)-I_n(h)| \sim \frac{1}{\sqrt{n}}. \\

我们可以看到,维度灾难表现为数据集的大小的不同形式。估计泛化鸿沟的一个重要概念是Rademacher复杂度[3]。假设\mathcal{H}是一个函数集,S=(\mathbb{x}_1,\mathbb{x}_2,\dots,\mathbb{x}_n )是一个数据集。\mathcal{H}相对于S的Rademacher复杂度定义为

\hat{R}_S(\mathcal{H})=\frac{1}{n} \mathbb{E}_\xi\left[ \sup \limits_{h \in \mathcal{H}}\sum_{i=1}^{n}\xi_ih(\mathbb{x}_i)\right], \\

其中\{\xi_i\}_{i=1}^{n}是独立同分布的随机变量,以相同的概率取值为1或-1。

举几个例子如下:

  • 如果\mathcal{H}是Lipschitz空间的单位球:\hat{R}_S(\mathcal{H}) \sim O(1/n^{1/d})
  • 如果\mathcal{H}是连续函空间\mathcal{C}^0中的单位球:\hat{R}_S(\mathcal{H}) \sim O(1)
  • 如果\mathcal{H}是Barron空间的单位球:\hat{R}_S(\mathcal{H}) \sim O(1/\sqrt{n})

最后一个是假设空间的Rademacher复杂度的最优尺度。

Rademacher复杂度是很重要的,因为它给出了我们感兴趣的上确界值的上界和下界[3]。给定一个函数类\mathcal{H},对任意\delta\in (0,1),在随机样本S=(\mathbb{x}_1,\mathbb{x}_2,\dots,\mathbb{x}_n )上,以1-\delta的概率,以下成立:

\begin{align*} \sup \limits_{h \in \mathcal{H}} \Big | \mathbb{E}_{\mathbb{x}}[h(\mathbb{x})] -\frac{1}{n} \sum_{i=1}^{n}h(\mathbb{x}_i)\Big |\\ \leq 2\hat{R}_S(\mathcal{H}) + \sup\limits_{h \in \mathcal{H}}\|h\|_{{\infty}}\sqrt{\frac{\log(2/\delta)}{2n}},\\ \sup \limits_{h \in \mathcal{H}} \Big | \mathbb{E}_{\mathbb{x}}[h(\mathbb{x})] -\frac{1}{n} \sum_{i=1}^{n}h(\mathbb{x}_i)\Big |\\\geq \frac{1}{2}\hat{R}_S(\mathcal{H}) - \sup\limits_{h \in \mathcal{H}}\|h\|_{{\infty}}\sqrt{\frac{\log(2/\delta)}{2n}}. \end{align*} \\

有了这个背景,我们现在可以把所有的机器学习模型分成两类。

第一类是存在维度灾难问题的模型,其泛化误差\geq O(m^{-\alpha/d}) \text{或} O(n^{-\beta/d}) 。维度灾难问题来自于逼近误差(右边第一项)或泛化鸿沟(右边第二项)。分段多项式逼近和固定基小波属于这类。

第二类是不存在维度灾难问题的模型,其泛化误差\leq O(\gamma_1(f^*)/m+\gamma_2(f^*)/\sqrt{n})。以下三种机器学习模型可以归到这一类。

  • 随机特征模型:假设\{\phi(\cdot, \omega),\omega \in \Omega\}为一组随机特征集,\omega服从概率分布\pi。对于一组独立同分布的\{\omega_j\}_{j=1}^{m}

\mathcal{H}_m(\{\omega_j\})=\{f_m(\mathbb{x},\mathbb{\theta})=\frac{1}{m}\sum_{j=1}^{m}a_j \phi(\mathbb{x};\omega_j)\}. \\

  • 两层神经网络:

\mathcal{H}_m = \{\frac{1}{m}\sum_{j=1}^{m}a_j\sigma(\mathbb{b}_j^T\mathbb{x}+c_j)\}. \\

  • 残差神经网络:

\mathcal{H}_m =\{f(\cdot,\mathbb{\theta})=\alpha\cdot \mathbb{z}_{L,L}(\cdot)\}: \\\mathbb{z}_{l+1,L}(\mathbb{x}) = \mathbb{z}_{l,L}(\mathbb{x}) +\frac{1}{L}\mathbf{U}_l\sigma \circ (\mathbf{W}_l \mathbb{z}_{l,L}(\mathbb{x})),l=0,\dots,L-1\mathbb{z}_{0,L}(\mathbb{x})=\mathbf{V}\mathbb{x}.\\

其中L是网络的深度。

可以通过以下步骤来识别这一类模型[10]:

  1. 用大数定律将目标函数表示为期望。这对于随机特征模型和两层神经网络模型来说是很简单的。对于残差网络模型,[10]中建立了“大数合成定律”。
  2. 通过证明相应的中心极限定理,建立逼近误差的收敛速率。同样这是前两个模型的标准,对于残差网络模型则需要额外做一些工作。
  3. 估计Rademacher复杂度。结果表明,对于上述三个模型,Rademacher复杂性最佳缩放尺度是数据集大小的函数。

在这个过程中,还可以为相应的机器学习模型确定正确的函数空间。对于随机特征模型,这是相应的再生核Hilbert空间。两层神经网络和残差网络模型的函数空间分别是Barron空间和复合函数空间。

对于这些模型的适当的正则化版本,可以容易地证明泛化误差的先验误差估计与维数无关(与蒙特卡洛类似)。

要为机器学习建立坚实的数学基础,还有许多工作要做。但是,很明显这些问题非常符合数值分析的精神。新的转折点是维度很高,模型可以在参数多于数据的情况下进行过度参数化。

5 总结

我所触及的只是即将到来的巨大冰山的一角。我们正处在一场新的科学革命的边缘,这场革命不仅将对科学产生影响,而且将从根本上影响数学和应用数学。特别地,

  • 将机器学习(代表开普勒范式)与基于第一性原理的物理建模(代表牛顿范式)相结合,为科学研究开辟了一个新的强大范式。应用数学是这种整合最自然的平台。
  • 要建立机器学习的理论基础,就必须发展高维数值分析。

如果这些说法的证据还不够有力,它将继续以惊人的速度发展。对于应用数学来,很难想象一个比摆在我们面前的更好的机会。

致谢

机器学习是年轻人发挥特别积极作用的一个领域。这里报告的工作也反映了这一点。我特别感谢我的年轻合作者为本报告的工作所作的贡献:韩劼群、Arnulf Jentzen、李千骁、马超、马征、邰骋、王涵、王青璨、吴磊、张林峰和周亚俊。我也感谢Reza Malek-Madani对报告提出的建议。

[1] Ainsworth M and Oden JT, A Posteriori Error Estimation in Finite Element Analysis, Wiley, 2000. MR1885308

[2] Bardos C,Golse F and Levermore D,Fluid dynamic limits of kinetic equations. I. Formal derivations, J. Statist. Phys., Vol. 63, No. 1/2, 1991. MR1115587

[3] Bartlett PL and Mendelson S, Rademacher and Gaussian complexities: risk bounds and structural results, J. Mach. Learn. Res., 3(Nov):463–482, 2002. MR1984026

[4] Barron AR,Universal approximation bounds for superpositions of a sigmoidal function, IEEE Trans. Inform. Theory 39(3):930–945, 1993. MR1237720

[5] Behler J and Parrinello M, Generalized neural-network representation of high-dimensional potential-energy sur- faces, Phys. Rev. Lett. 98, 146401, 2007.

[6] Cai ZN, Fan YW and Li R, Globally hyperbolic regulariza- tion of Grad’s moment system in one dimensional space, Comm. Math. Sci. 11(2), 2012, pp. 547–571. MR3002565

[7] DiracPA,Quantummechanicsofmany-electronsystems, Proc. Roy. Soc. London. Series A, Vol. 123, No. 792, 1929. [8] E W, Principles of Multiscale Modeling, Cambridge Univer- sity Press, 2011. MR2830582

[9] E W, Han J, and Jentzen A, Deep learning-based numeri- cal methods for high-dimensional parabolic partial differ- ential equations and backward stochastic differential equa- tions, Comm. Math. Stats., vol. 5, no. 4, pp. 349–380, 2017. MR3736669

[10] E W, Ma C, and Wu L, Barron spaces and the com- positional function spaces for neural network models, arXiv.org/abs/1906.0803, 2019.

[11] E W and Zhou Y, A mathematical model for linguistic universals, arXiv.org/abs/1907.1229, 2019.

[12] Han J, Ma C, Ma Z, and E W, Uniformly accurate ma- chine learning based hydrodynamic models for kinetic equations, arXiv:1907.03937, 2019.

[13] Parr RG and Yang W, Density-Functional Theory of Atoms and Molecules, Oxford Science Publications, 1989.

[14] Pardoux E and Peng SG,Adapted solution of a backward stochastic differential equation, Systems Control Lett., Vol. 14, Issue 1, 1990. MR1037747

[15] Van Dyke M, Perturbation Methods in Fluid Mechanics, an- notated edition, Parabolic Press, 1975. MR0416240

[16] Wang H, Zhang LF, Han J, and E W, DeePMD-kit: A deep learning package for many-body potential energy representation and molecular dynamics, Comput. Phys.Comm., vol. 228, pp. 178–184, 2018. github .com/deepmodeling/deepmd-kit.

[17] Zhang L, Han J, Wang H, Saidi W, Car R, and E W, End-to-end symmetry preserving inter-atomic potential energy model for finite and extended systems, NIPS, 2018.

[18] Zhang L,Wang H,CarR,and E W,Active learning of uniformly accurate inter-atomic potentials for materials simulation, arXiv:1810.11890, 2018.
编辑于 2020-03-11 07:19