资源 | CMU统计机器学习2017春季课程：研究生水平

2017 年 10 月 30 日 机器之心

机器之心整理

参与：蒋思源

机器之心向大家介绍一门统计机器学习课程，该课程的授课老师是 CMU 的 Ryan Tibshirani 和 Larry Wasserman，他们从回归模型到概率图模型向我们展示了统计机器学习的全面概念与推导。本课程适合有一定概率论和机器学习基础的读者进一步理解统计机器学习的一般理论，且所有的课程视频、笔记等资料都可在课程页面获取。

该《统计机器学习》课程是 CMU 中进阶机器学习的研究生课程，所以想学习的读者可能需要有一些机器学习和中级统计学相关的背景知识。术语「统计」反映了该课程对统计学理论和方法论的重视。本课程将方法和理论基础相结合，且各项定理都从直观实践经验开始论述，所以有助于我们使用适当方法和工具来理解与实现这些理论。该课程包含了对机器学习研究与学习十分重要的统计理论基础，包括非参数理论、一致性、极小极大估计和集中性度量等。

课程地址：http://www.stat.cmu.edu/~ryantibs/statml/

课程背景知识要求理解：

依概收敛与依分布收敛
中心极限定理与大数定律
最大似然估计与 Fisher 信息
贝叶斯推断
回归
正则化、偏差-方差权衡
贝叶斯分类器、线性分类器和支持向量机
行列式、特征向量与特征值

对于很多入门级读者来说，该课程会稍微有一些困难。因为这门课程的主要内容更注重于机器学习中的统计理论与方法，而且课程要求的背景知识正好可以通过李航的《统计学习方法》进行学习，所以小编认为我们可以先完成李航的统计学习方法，从概率与统计的方向理解机器学习的本质属性，然后再进一步学习该课程。

基于李航对统计机器学习的论述，我们知道统计机器学习（Statistical Machine Learning）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。它有如下一些特点：

统计机器学习以计算机及网络为平台，是建立在计算机及网络之上的
统计机器学习以数据为研究对象，是数据驱动的学科
统计机器学习的目的是对数据进行预测与分析
统计机器学习以方法为中心，统计学习方法构建模型并应用模型进行预测与分析
统计机器学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科，并且在发展中逐步形成独自的理论体系与方法论。

以下在有统计机器学习概念的基础上介绍该课程内容：

该课程的主题为：线性回归、线性分类、非参数回归、非参数分类、再生核希尔伯特空间（Reproducing kernel Hilbert spaces）、密度估计、聚类、高维检验、集中性度量（Concentration of measure）、极小极大理论（Minimax theory）、稀疏性和 lasso，还有概率图模型等。

并且每一个主题都有相应的学时、笔记、视频等材料。例如在图模型章节中，Ryan Tibshirani 和 Larry Wasserman 详细解释了各种无向图模型，并且有十分详尽的课程资料。如下是该章节的笔记资料目录：