概率论和机器学习中的不等式

2022 年 11 月 9 日 PaperWeekly

©作者 | 斯宾王

在概率论（probability theory）中有很多优美且重要的不等式，它们常常被称作集中不等式（concentration inequality）。这些不等式为随机变量偏离（deviate）某些值的概率给出界（bound），因此它们常常在机器学习（machine learning）中起到评估估计量（estimate）的作用。

比如，应用霍夫丁不等式（Hoeffding's inequality），可以得到经验误差（empirical error）偏离真实误差（true error）的上界。马尔可夫不等式（Markov's inequality）和切比雪夫不等式（Chebyshev's inequality）是集中不等式中最有名的，也是最基础的。

马尔可夫不等式

著名的马尔可夫不等式为一个非负随机变量大于等于一个正值的概率给出了上界。此不等式以数学家马尔可夫命名，但由于它在马尔可夫的老师切比雪夫的工作中出现，也被称作切比雪夫不等式。为了和一般所指的切比雪夫不等式区分开，马尔可夫不等式被称作切比雪夫第一不等式，而一般所指的切比雪夫不等式被称作切比雪夫第二不等式。马尔可夫不等式如下所述。

定理 1.1（马尔可夫不等式） 若是一个非负随机变量，且，那么

证明由于是非负的，所以，其中是的PDF（概率密度函数）。那么，

这样我们就得到了。

在实际应用中，常数通常被选定为的期望的正数倍，这样马尔可夫不等式可被写作

这里。举个形象的例子，若是收入，那么收入超过 3 倍平均收入的人不超过总人数的。

切比雪夫不等式

切比雪夫不等式指出，随机变量偏离其期望超过个标准差的概率以为界。切比雪夫不等式的用途和正态分布的 68−95−99.7 法则类似，但可以应对更一般的概率分布。此不等式保证，对于一系列范围很广的随机变量，有至少 75% 的值分布离期望两个标准差之内的范围当中，有至少 88.9% 的值分布离期望三个标准差之内的范围当中。切比雪夫不等式是马尔可夫不等式的直接推论。

▲ 68-95-99.7法则和切比雪夫不等式

定理 2.1（切比雪夫不等式） 若是一个随机变量，其方差为，那么

证明令，并令。根据马尔可夫不等式，我们有

切比雪夫不等式的一个重要应用是证明弱大数定律（weak law of large numbers）。对于，其中是独立随机变量，和任意，令，并应用切比雪夫不等式，我们就可以得到弱大数定律。

定理 2.2（弱大数定律 ）令为独立随机变量序列，其中所有均值相等，且方差均为，并令。那么，对于任意，

▲ 大数定律

坎泰利不等式

坎泰利不等式（Cantelli's inequality）是对切比雪夫不等式单边尾界（tail bound）的改进。尽管此不等式以数学家坎泰利命名，它在切比雪夫的工作中已经出现。

定理 3.1（坎泰利不等式） 若是一个随机变量，其方差为，那么，对于，

证明令，并令。那么

其中第三个不等式是由于马尔可夫不等式。若选取使得最小，我们得到。将此值代入上面的不等式，我们就得到了坎泰利不等式。

若选取，我们可以通过坎泰利不等式得到和。因此，坎泰利不等式表明，随机变量的平均数和中位数的差不会超过一个标准差。

切比雪夫不等式和坎泰利不等式用到的是随机变量的二阶矩（second-order moment），而若用到更高阶的矩，我们可以得到更强的不等式，比如何-张-张不等式。此不等式指出，若随机变量满足，且，则

佩利-齐格蒙德不等式

前面的不等式为尾部概率给出了上界，而佩利-齐格蒙德不等式（Paley-Zygmund inequality）为尾部概率给出了下界。此不等式表述如下。

定理 4.1（佩利-齐格蒙德不等式） 若是一个非负随机变量，且，那么

证明我们将分解为

第一项满足

。根据柯西-施瓦茨不等式（Cauchy-Schwarz inequality），第二项满足

这样，我们得到

整理后就是佩利-齐格蒙德不等式。

佩利-齐格蒙德不等式还有版本：若是一个非负随机变量，，且，那么

赫尔德不等式

赫尔德不等式（Hölder's inequality）是空间中的积分所满足的不等式。空间是由这样的函数所构成的空间：令为一个测度空间（measure space），函数是可测的（measurable），且它的范数（norm）满足。赫尔德不等式的表述如下。

定理 5.1（赫尔德不等式） 假设，且。若是定义在上的可测函数，那么

特别地，如果且，则，且等式成立当且仅当，其中为满足的常数。

证明我们首先证明一个工具性不等式：若，且，则

等式成立当且。若，结论无需证明。若，将不等式两边同时除以，并令，我们要证明的结论变为，等式成立当且仅当。由于在时严格单调递增，并在时严格单调递减，所以在时达到最大值，而最大值正是。

若或，或者或，结论无需证明。此外，若结论对于成立，则结论对于的标量倍数成立。因此，我们只需证明不等式当是成立，等式成立当且仅当令，并令。根据之前证明的工具，我们有

不等式两边同时积分，得到

等式成立当且仅当

，而根据之前证明的工具，这等价于。

概率论中的赫尔德不等式表述如下：若是一个概率空间，且是期望算子（operator），则实值或复值随机变量满足

赫尔德不等式的一个推论是闵可夫斯基不等式（Minkowski inequality），即空间中的函数所满足的三角不等式（triangle inequality）

这里，，且。若用概率论的语言表达，此不等式是

霍夫丁不等式

对于有界独立随机变量之和，霍夫丁不等式（Hoeffding's inequality）给出了偏离其期望的概率的上界。若随机变量在区间上取值，那么霍夫丁不等式说指出，个随机变量之和满足

我们在不等式的证明中常常需要用到切尔诺夫边界技巧（Chernoff bounding technique）：对于任意，先用马尔可夫不等式得出

再为找到上界，然后选择对进行最小化。对于霍夫丁不等式，我们所需的上界由霍夫丁引理（Hoeffding's lemma）给出。

引理 6.1（霍夫丁引理） 若，且，则对于任意，有

证明由于是一个凸映射，对于任意，有

。由于，

其中：

通过计算，我们得到：

其中。注意，且，这里。由于，，故。根据泰勒定理（Taylor's theorem），存在，使得

接下来我们证明霍夫丁不等式。

定理 6.2（霍夫丁不等 式）若随机变量是独立的，且每个在区间上取值，那么对于任意和，

证明应用切尔诺夫边界技巧和霍夫丁引理，我们有

这里第一个不等式是马尔可夫不等式，第一个等式是因为独立性，第二个不等式是因为霍夫丁引理，最后一个不等式是因为取来对上界进行最小化。

霍夫丁不等式可以用于给出置信区间。假如一个特制的硬币正面朝上的概率是，我们投次硬币，并得到个样本。令为观察到的正面朝上的次数，则霍夫丁不等式给出

令为观察到的均值，我们想构造一个长度为且置信水平为的关于的置信区间。由于

我们至少需要个样本，才能构造出 -置信区间。

柯尔莫哥洛夫不等式

柯尔莫哥洛夫不等式（Kolmogorov's inequality）又被称作最大值不等式（maximal inequality），它为随机变量的部分和（partial sum）的绝对值的最大值的尾部概率给出了上界。

定理 7.1（柯尔莫哥洛夫不等式） 若随机变量是独立的，且所有均值为 0 ，方差是有限的，那么，对于，

这里。

证明由于序列由均值为 0 的独立随机变量组成，序列构成一个鞅（martingale），即。定义，并令

由于序列每个都是某个，所以构成一个鞅. 对于任意鞅，若，则

这里：

因此：

其中第一个不等式是因为切比雪夫不等式。

最大值不等式

除了柯尔莫哥洛夫的最大值不等式，我们再介绍两个关于随机变量的最大值的期望的不等式。对于满足一定条件的随机变量，这两个不等式中的上界由样本数的对数决定。

定理 8.1（最大值不等式） 令为实值独立随机变量，使得对于任意和，，其中。那么，

证明任选。由于指数函数是凸函数，根据詹森不等式，我们有

不等式两边同时取对数，再选取使得右边的表达式最小化，我们得到

推论 8.2（最大值不等式） 令为实值随机变量，使得对于任意，，其中是均值为 0 且在取值的独立随机变量，这里。那么

这里。

证明由于对于固定的，是独立的，所以

其中。这里的不等式是因为霍夫丁引理。应用定理 8.1，证毕。

伯恩斯坦不等式

霍夫丁不等式没有用到关于随机变量的分布的信息，而伯恩斯坦不等式（Bernstein's inequality）利用随机变量的方差给出了一个更紧的界。

定理 9.1（伯恩斯坦不等式） 令为独立随机变量，使得对于任意，，且。令，则

证明令。对于，令

。由于，且，我们有

由于

，根据柯西-施瓦茨不等式（Cauchy-Schwarz inequality），有

递归地应用柯西-施瓦茨不等式，我们有

由于

故

。令，我们得到，所以

那么，

令且，应用切尔诺夫边界技巧，我们得到

其中。这里第一个不等式是马尔可夫不等式，第二个不等式是因为

，第三个不等式是因为取来对上界进行最小化。

令和。很容易证明，，且，故。令，我们得到

事实上，霍夫丁不等式、吾妻不等式和切尔诺夫界都是伯恩斯坦不等式的特例。

班纳特不等式

在伯恩斯坦不等式的证明的中间步骤中，我们证明了不等式

而这就是班纳特不等式（Bennet's inequality）。

定理 10.1（班纳特不等式） 令为独立随机变量，使得对于任意，，且。令，则

其中。

举例来说，若是概率为的独立的二元（binary）随机变量，那么班纳特不等式给出

相比之下，霍夫丁不等式给出的界是，伯恩斯坦不等式给出的界是。

吾妻不等式

吾妻不等式（Azuma's inequality）给出了一个比霍夫丁不等式更普遍的结果，它是一个关于鞅差（martingale difference）的不等式。

定义 11.1 若在随机变量序列中，每个都是关于关于随机变量的函数，且，则称是关于的一个鞅差序列。

下面的结论和霍夫丁引理类似，证明过程近乎一致，只是把期望替换为条件期望，并选取和。

引理 11.2 若随机变量满足，且存在函数和常数，使得，那么对于任意，有

现在我们来推导吾妻不等式。

定理 11.3（吾妻不等式） 令随机变量序列为关于随机变量序列的一个鞅差序列. 若对于所有都存在常数和作为关于的函数的随机变量，使得，那么对于任意和，

证明对于任意，令。应用切尔诺夫边界技巧和引理 11.2，我们有

这里第一个不等式是马尔可夫不等式，第一个等式是因为塔性（tower property），第二个不等式是因为引理 11.2，最后一个不等式是因为取来对上界进行最小化。

现在我们来看一个简单的例子。若令为 i.i.d 随机硬币投掷，那么由于满足，吾妻不等式给出。设，则，即距 0 偏离大于的概率随趋向于 0 。

麦克迪尔米德不等式

麦克迪尔米德不等式（McDiarmid's inequality）是机器学习中很重要的一个不等式，对于关于独立随机变量的函数的样本值与期望值的偏离，它给出了界。此不等式成立的条件是有界差性质（bounded difference property），即当我们只改变多元函数的一个变量时，函数值的差不能太大。对麦克迪尔米德不等式的证明用到了吾妻不等式。

定理 12.1（麦克迪尔米德不等式） 令为一组独立随机变量. 假设存在常数和函数，使得

，这对于所有和都成立。那么，对于任意，

证明按如下方式定义：令和，对于，令

。注意。

此外，根据塔性质，

，故。因此，是一个关于的鞅差序列。将写为

，我们可以定义的上界和下界：

由于满足有界差性质，有，故。对应用吾妻不等式，我们就可以得到麦克迪尔米德不等式。

麦克迪尔米德不等式可以从稳定性（stability）的角度来理解：若一个变量的改变对函数值的改变有限，则函数对于其均值的偏离是是指数有界的（exponentially bounded）。注意霍夫丁不等式是麦克迪尔米德不等式的特例，此时函数是。

埃夫隆-施泰因不等式

埃夫隆-施泰因不等式（Efron–Stein inequality）对关于随机变量的函数的方差给出了界，它是已知的界中最紧的之一。

定理 13.1（埃夫隆-施泰因不等式） 令为一个关于随机变量的函数，并令为独立随机变量。令，则

这里

，且和的分布相同。

证明令

. 令和，对于，令

。

那么，故：

根据塔性质：

还是因为塔性质，由于：

故。那么，

根据塔性质，我们有

在第二个等式中，我们用到了：

由于是一个凸映射，根据詹森不等式（Jansen's inequality），我们有

若为相同分布的两个独立样本，则。令和，则

，故

注意，当，埃夫隆-施泰因不等式会变为等式。

平斯克不等式

平斯克不等式（Pinsker's inequality）用 KL 散度（Kullback–Leibler divergence）为两个分布的总变分距离（total variation distance）给出了界。在引入此不等式之前，我们先介绍 KL 散度的概念。

定义 14.1 两个分布和的 KL 散度是

里我们令，，且若，。此外，，，这里和分别为分布是和的随机变量。KL 散度也叫作相对熵（relative entropy）。

由于詹森不等式（Jansen's inequality），KL 散度总是非负的。然而，KL 散度不是一个距离（distance），因为它不是对称的，且不满足三角不等式。平斯克不等式表明，两个分布的总变分距离以 KL 散度的函数为界。

定理 14.2（平斯克不等式） 对于两个分布和，有

证明我们首先证明此不等式对于在基数（cardinality）为 2 的一个集合上的分布成立。令和。固定，并考虑映射，此映射由

定义. 注意。对于，由于

，而，当，，当，。那么，在处达到最小值，故。用KL散度来表示，由于和，我们有

这样我们就证明了，平斯克不等式对于在基数为 2 的集合上的分布成立。现在考虑在集合上的分布和，这里，，，。

注意和是定义在和两个元素上的分布，而和是定义在集合的单个元素上的分布。根据对数和不等式（log-sum inequality）

，我们有

此外，我们还有

所以，我们得到，

萨诺夫定理

萨诺夫定理（Sanov's theorem）用KL散度给出了一个比霍夫丁不等式更精细的不等式。

定理 15.1（萨诺夫定理） 令为独立随机变量，它们均值为，遵循以为支撑（support）的分布. 那么，对于任意，

这里，且

为和的KL散度。

证明由于是一个凸映射，对于，

。因此，

其中第一个不等式是因为马尔可夫不等式，第二个不等式是因为凸性质。若选取使得，我们得到。代入此值后，我们就得到了萨诺夫定理的不等式。

对于，令，通过萨诺夫定理，我们得到

萨诺夫定理给出了一个比霍夫丁定理更精细的上界，因为根据平斯克不等式，。将此定理应用于，那么对于，令，我们得到一个对称的不等式

对于概率为的伯努利试验（Bernoulli trial）的均值，霍夫丁不等式、班纳特不等式、伯恩斯坦不等式和萨诺夫不等式给出的尾部概率上界如下图所示。

▲ 对于概率为 p 的伯努利试验的均值，霍夫丁不等式、班纳特不等式、伯恩斯坦不等式和萨诺夫不等式给出的尾部概率上界

乘法切尔诺夫界

萨诺夫定理可以用来证明乘法切尔诺夫界（multiplicative Chernoff bound）。在霍夫丁定理的证明中，我们用到了切尔诺夫边界技巧，而乘法切尔诺夫界是关于相对误差（relative error）的。

定理 16.1（乘法切尔诺夫界） 令为独立随机变量，它们均值为，遵循以为支撑的分布。那么，对于任意，

这里。

证明我们要为 KL 散度找到一个比平斯克不等式中的界更精细的下界，这样我们就可以通过这个更精细的下界和萨诺夫定理得到乘法切尔诺夫界。根据不等式和，我们得到

类似地，根据不等式

和，我们得到

参考文献

[1] Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar. Foundations of Machine Learning.

[2] Stéphane Boucheron. Concentration inequalities: a nonasymptotic theory of independence.

[3] G. B. Folland, Real Analysis: Modern techniques and their applications, New York, Wiley. (1999).

[4] Cantelli F. (1910). Intorno ad un teorema fondamentale della teoria del rischio. Bolletino dell Associazione degli Attuari Italiani.

[5] Godwin H. J. (1964). Inequalities on distribution functions. New York, Hafner Pub. Co.

[6] Billingsley, Patrick (1995). Probability and Measure. New York: John Wiley & Sons, Inc.

[7] W. Hoeffding, ”Probability Inequalities for Sums of Bounded Random Variables”, Journal of the American Statistical Association, 58:13-30, 1963.

[8] B. Efron, C. Stein, ”The Jacknife Estimate of Variance”, Annals of Statistics, 9:586-96, 1981.

[9] J. Michael Steele, “An Efron-Stein Inequality for Nonsymmetric Statistics”, Annals of Statistics, Vol 14, No. 2, Pg 753-758, 1986

[10] C. McDiarmid, ”On the Method of Bounded Differences”, In Surveys in Combinatorics, LMS lecture. note series 141, 1989.

[11] G. Benett, ”Probability Inequalities for Sum of Independent Random Variables”, Journal of the American Statistical Association, 57:33-45, 1962.

[12] S.N. Bernstein, ”The Theory of Probabilities”, Gastehizdat Publishing House, Moscow, 1946.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

随机变量

关注 0

2188页干货书！数学基础：面向计算机科学与机器学习的线性代数、拓扑、微积分和最优化

专知会员服务

122+阅读 · 2022年10月19日

鄂维南院士：迈向机器学习的数学理论，66页ppt，附视频

专知会员服务

78+阅读 · 2022年9月1日

【干货书】机器学习线性代数与优化，507页pdf

专知会员服务

183+阅读 · 2022年7月28日

【简明书】数学，统计和机器学习的动手入门，57页pdf

专知会员服务

62+阅读 · 2022年3月3日

统计太抽象？这本《统计分析基础》新书图文式为你讲解，91页pdf

专知会员服务

63+阅读 · 2022年1月14日

923页ppt！经典课《机器学习核方法》，附视频

专知会员服务

104+阅读 · 2021年3月1日

【2021新书】概率论介绍，395页pdf

专知会员服务

71+阅读 · 2021年1月17日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

68+阅读 · 2020年3月30日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知会员服务

51+阅读 · 2020年3月9日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知会员服务

66+阅读 · 2020年3月2日

鄂维南院士：迈向机器学习的数学理论，66页ppt，附视频

专知

3+阅读 · 2022年9月1日

为什么深度学习是非参数的？

THU数据派

1+阅读 · 2022年3月29日

机器学习著名定理之—No Free Lunch定理详解

PaperWeekly

0+阅读 · 2022年3月4日

【简明书】数学，统计和机器学习的动手入门，57页pdf

专知

5+阅读 · 2022年3月3日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知

24+阅读 · 2020年3月2日

【机器学习】深入剖析机器学习中的统计思想

产业智能官

14+阅读 · 2019年1月24日

机器学习笔试题精选

人工智能头条

13+阅读 · 2018年7月22日

零基础概率论入门：最大似然估计

论智

12+阅读 · 2018年1月18日

概率论之概念解析：用贝叶斯推断进行参数估计

专知

13+阅读 · 2018年1月8日

机器学习(19)之支持向量回归机

机器学习算法与Python学习

11+阅读 · 2017年10月3日

随机偏微分方程

国家自然科学基金

5+阅读 · 2017年12月31日

关于若干模型泛函不等式及其应用的研究

国家自然科学基金

1+阅读 · 2015年12月31日

Choquet期望下极限定理及其收敛速度的刻画

国家自然科学基金

0+阅读 · 2015年12月31日

关于某些代数曲线K2群的研究

国家自然科学基金

1+阅读 · 2015年12月31日

一类广义相依序列的概率不等式及统计推断研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下多因变量回归模型的统计推断

国家自然科学基金

5+阅读 · 2013年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

分位数回归模型中的大偏差、偏差不等式及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

泛函不等式与随机微分方程上的大偏差问题

国家自然科学基金

0+阅读 · 2012年12月31日

高维问题和稳健性研究

国家自然科学基金

0+阅读 · 2009年12月31日

Adam Can Converge Without Any Modification On Update Rules

Arxiv

0+阅读 · 2023年1月13日

Generalization Properties of NAS under Activation and Skip Connection Search

Arxiv

0+阅读 · 2023年1月13日

Benign Underfitting of Stochastic Gradient Descent

Arxiv

0+阅读 · 2023年1月12日

Duoidally enriched Freyd categories

Arxiv

0+阅读 · 2023年1月12日

Forgetful Active Learning with Switch Events: Efficient Sampling for Out-of-Distribution Data

Arxiv

0+阅读 · 2023年1月12日

Recognition Models to Learn Dynamics from Partial Observations with Neural ODEs

Arxiv

0+阅读 · 2023年1月12日

Learning Partial Differential Equations by Spectral Approximates of General Sobolev Spaces

Arxiv

0+阅读 · 2023年1月12日

On Neural Differential Equations

Arxiv

22+阅读 · 2022年2月4日

Embedding Uncertain Knowledge Graphs

Arxiv

12+阅读 · 2019年2月26日

Optimization Models for Machine Learning: A Survey

Arxiv

18+阅读 · 2019年1月16日

VIP会员