【机器学习】深入剖析机器学习中的统计思想

2019 年 1 月 24 日 产业智能官

现在机器学习中大家达成了一个共识: 如果你在用一个机器学习方法，而不懂其基础原理和解释性，这是一件非常可怕的事情。

统计强调推理，而机器学习则强调预测。执行统计信息时，需要推断生成数据的过程。当你进行机器学习时，你想知道用什么样的变量，以及预测未来会是什么样子。

以统计思想的视角，了解数据分布、评估各种结果的概率、理解数据生成过程、模型解释性是关注的重点，而机器学习更多的关注的是预测的准确性，我们知道，模型的实际应用光有准确性是不够的，人类到现在还没有一个非常成功的机器（系统），工作的好却不能解释。所以机器学习中，统计思想的应用是非常重要的。

统计学与计算机学家之争

原来统计是在统计系，机器学习是在计算机系，这两个是不相来往的，而且互相都不认同对方的价值。专注于机器学习的计算机学家认为那些统计理论没有用，不解决问题；而统计学家则认为计算机学家只是在重新建造轮子，没有新意。

然而，随着机器学习的迅猛发展，统计学家认识到计算机学家正在做出的贡献，而计算机学家也认识到统计的理论和方法论的普遍性意义。

Boosting, SVM 和稀疏学习是机器学习界也是统计界，是近二十年来最活跃的方向，其实是二者相辅相成的结果。比如，SVM的理论其实很早被Vapnik等提出来了，但计算机界发明了一个有效的求解算法，而且后来又有非常好的实现代码被陆续开源给大家使用，于是SVM就变成分类算法的一个基准模型。

机器学家通常具有强的计算能力和解决问题的直觉，而统计学家长于理论分析，具有强的建模能力，因此，两者有很好的互补性。

所以两者融合是必然的趋势。

统计思想对机器学习的巨大贡献

我们清楚的知道，机器学习在应用中迅猛发展，是人工智能具体落地的主角，也是台前英雄，而统计却是幕后推动者。

机器学习是数据建模的计算机科学观点，侧重于算法方法和模型技能。
统计学习是数据建模的数学视角，侧重于模型参数的准确估计、模型有效性和拟合优度。

机器学习由于过度关注预测准确性，缺乏完全发展的推理概念。

1）似乎没有人认识到任何预测（参数估计等）都会受到随机误差和系统误差（偏差）的影响。统计学家会接受这是预测中不可避免的一部分，并会尝试估计错误。统计技术将尝试找到具有最小偏差和随机误差的估计。

2）在机器学习中似乎没有深入理解将模型应用于来自同一分布群体的新样本限制，尽管我们有划分训练集、测试集。实际上，源于统计思想的交叉验证和惩罚方法，指导在简约性和模型复杂性之间达到权衡，早已是统计中非常广泛的手段。而大部分机器学习从业者对这些指导原则似乎更为临时。

所以，机器学习从业者必须保持开放的思维并利用方法，并从应用统计和统计学习的密切相关领域中理解术语，并在实际中充分应用统计思想，才能更好的将机器学习应用到实践中。

正则化：统计中的惩罚思想

在机器学习中，我们在正则化和SVM中接触到惩罚方法，没学过统计的，会感觉很陌生，其实这是在统计中经常用的方法了。比如光滑样条Smooth Spline通过对二阶导数进行惩罚来控制拟合曲线的光滑程度；LASSO和Ridge regression回归。

惩罚的核心目的是限制参数空间的大小以降低模型复杂度，惩罚本身反应我们对对应统计问题的某种先验知识。惩罚有独特的概率上的解释，比如假设高斯噪声的线性模型中，LASSO的L1惩罚相当于给回归参数加上了一个Laplace prior，而岭回归Ridge regression中的L2惩罚则对应一般的normal prior。

在SVM的硬间隔支持向量机中，由于几何间隔本身代表的是距离，是非负的，像上图所示的红色、绿色两个噪声点会使得整个问题无解。所以引入惩罚因子（松弛变量）这种统计学中的思想，使SVM有了容错能力，更鲁棒了。

线性回归：随机变量和离差平方和

机器学习之前，线性回归其实已经是在统计学中用的最多的方法，所以如果我们理解线性回归算法，如果以数据和拟合的机器学习视角来看问题，可能就觉得太简单了，甚至理解的不那么深刻；而从统计的视角来看，就会发现还不是那么简单，意义还很多，看看其统计思想：

1、随机变量

Y= Xβ+ε

Y是 X的线性函数(部分)加上误差项，线性部分反映了由于X的变化而引起的Y的变化，误差项ε是随机变量，一般是均值为零的高斯分布。反映了除X和Y之间的线性关系之外的随机因素对Y的影响。是不能由X和Y之间的线性关系所解释的变异性。所以理解了随机变量，才能真正理解我们拟合优度目标。

2、离差平方和

总离差平方和反映因变量的n个观察值与其均值的总误差；
回归平方和反映自变量x的变化对因变量 y 取值变化的影响，或者说，是由于x与y之间的线性关系引起的y的取值变化，也称为可解释的平方和；
残差平方和反映除x以外的其他因素对 y 取值的影响，也称为不可解释的平方和

注意：离差平方和公式可以由均值为零的随机变量误差来推导。

朴素贝叶斯：贝叶斯定理

朴素贝叶斯算法所体现的统计学思想就更多了：

①、贝叶斯定理；②特征条件之间相互独立的假设。

这涉及很多统计与概率论的相关概念：条件概率，联合概率分布，先验概率，后验概率，独立性。

交叉验证：重采样方法

交叉验证本质上说是重采样方法，其思想起源是统计学。交叉验证准确度是可以解释为与模型正确的概率相关的东西。

交叉验证用在数据不是很充足的时候。

将样本数据进行切分。在得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓"交叉"。

支持向量机：统计学习理论

支持向量机的产生源于统计学习理论的突破。

统计学习理论是一种研究训练样本有限情况下的机器学习规律的学科。换句话说，统计学习理论中，学习的统计性能，即通过有限样本能否学习得到其中的一些规律？

在统计学习理论产生之前，机器学习中统计学中关于估计的一致性、无偏性和估计方差的界等，以及分类错误率等渐近性特征是实际应用中往往得不到满足，而这种问题在高维空间时尤其如此。

由万普尼克建立基于统计学习的机器学习理论，使用统计的方法，因此有别于归纳学习等其它机器学习方法。

（1）结构风险是为经验风险与置信风险的和。

（2）尽管经验风险最小化的归纳原则是一致的，但是一致性是在样本数量趋向无穷大时得到了，在样本点个数有限的情况下，仅仅用经验风险来近似期望风险是十分粗糙的，结构风险则是期望风险的一个上界。

基于这个理论的支持向量机，数学基础非常完备，闪烁着统计思想的火花，对机器学习的理论界以及各个应用领域都有极大的贡献。

贝叶斯估计：足够的观察数据会让分布更加真实

在贝叶斯估计中的统计思想有：

一个是贝叶斯定理

一个是观察数据，足够的观察数据会让估计更加符合数据的真实分布。

已经看到P（Θ）是先验分布。它代表了我们对参数真实价值的信念，就像我们的分布代表了我们对出售冰淇淋概率的看法一样。

左侧的P（Θ|data）称为后验分布。这是在我们计算右侧的所有内容并将观察到的数据考虑在内之后表示我们对参数值的信念的分布。

P（data|Θ ）是似然分布。一般是高斯分布ℒ（data;μ，σ）。

因此，我们可以通过使用我们提供的参数的先验信念计算出后验分布。

这是两个观察点下拟合的情况：

这是10个数据观察点下的贝叶斯估计拟合的情况：

高斯过程：统计中高斯分布、贝叶斯定理、观察数据、均值、方差的意义

分布：高斯分布是实际中广泛的存在。

贝叶斯定理：从先验概率，即对一些关于事件发生概率的猜测开始，然后你观察当前事件发生的似然（可能性），并根据发生的事情更新你的初始猜测。更新后，先验概率称为后验概率。

所以要预测新数据点的y值，从概率的视角看，我们可以用条件概率来预测，即在历史数据的X、Y值条件下，当前y的概率分布。

分布均值：对y*的最佳估计

GP建模中的关键假设是我们的数据可以表示为来自多元高斯分布的样本，我们有

我们对条件概率p（y* | y）感兴趣："给定数据，y *的特定预测的可能性有多大？"。这个条件概率仍然遵循高斯分布（推导过程略），所以有：

对y*的最佳估计是这种分布的平均值：

分布的方差：估计不确定性度量

我们估计的不确定性由方差给出：

工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进产业OT（工艺+自动化+机器人+新能源+精益）技术和新一代信息IT技术（云计算+大数据+物联网+区块链+人工智能）深度融合，在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

登录查看更多

相关内容

统计学

关注 46

统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科，通过量化地研究随机性，从而理解数据的产生机制，并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱，其广泛的应用深刻地影响现代生活，具有代表性的应用领域包括：生物/医学(生物统计学，基因统计学，生物信息学，制药学等)
社会学/环境学(社会统计学，心理学，人口学，空间统计学，环境统计学等)
工业工程学(质量控制，可靠性分析等)
经济学/金融学(精算学，金融统计学等)
工程学/计算机科学(统计学习，数据挖掘，信号/图像采样/处理等)
基础科学(统计物理学，统计化学等)

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

专知会员服务

412+阅读 · 2020年6月8日

【斯坦福经典书】计算机时代的统计推断: 算法、证据和数据科学，493页pdf

专知会员服务

92+阅读 · 2020年6月1日

清华大学《人工智能之机器学习》报告，8个篇章203页pdf，附下载

专知会员服务

149+阅读 · 2020年5月31日

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

专知会员服务

317+阅读 · 2020年5月28日