机器学习使用各种数学领域的工具。本文试图对机器学习入门课程所需的数学背景进行总结,这门课在加州大学伯克利分校被称为CS 189/289A。我们假设读者已经熟悉多变量微积分和线性代数的基本概念(UCB数学53/54的水平)。这里介绍的大多数主题都很少涉及; 我们打算给出一个概述,并向感兴趣的读者指出更全面的处理以获得进一步的细节。请注意,本文关注的是机器学习的数学背景,而不是机器学习本身。我们将不讨论具体的机器学习模型或算法,除非可能通过强调数学概念的相关性。该文件的早期版本不包括校样。我们已开始在有助于理解的相当短的证明里加上证明。这些证明不是cs189的必要背景,但可以用来加深读者的理解。
这是我2004年,2006年和2009年在斯坦福大学教授的概率理论博士课程的讲义。本课程的目标是为斯坦福大学数学和统计学系的博士生做概率论研究做准备。更广泛地说,文本的目标是帮助读者掌握概率论的数学基础和在这一领域中证明定理最常用的技术。然后将此应用于随机过程的最基本类的严格研究。
为此,我们在第一章中介绍了测度与积分理论中的相关元素,即事件的概率空间与格-代数、作为可测函数的随机变量、它们的期望作为相应的勒贝格积分,以及独立性的重要概念。
利用这些元素,我们在第二章中研究了随机变量收敛的各种概念,并推导了大数的弱定律和强定律。
第三章讨论了弱收敛的理论、分布函数和特征函数的相关概念以及中心极限定理和泊松近似的两个重要特例。
基于第一章的框架,我们在第四章讨论了条件期望的定义、存在性和性质,以及相关的规则条件概率分布。
第五章讨论了过滤、信息在时间上的级数的数学概念以及相应的停止时间。关于后者的结果是作为一组称为鞅的随机过程研究的副产品得到的。讨论了鞅表示、极大不等式、收敛定理及其各种应用。为了更清晰和更容易的表述,我们在这里集中讨论离散时间的设置来推迟与第九章相对应的连续时间。
第六章简要介绍了马尔可夫链的理论,概率论的核心是一个庞大的主题,许多教科书都致力于此。我们通过研究一些有趣的特殊情况来说明这类过程的一些有趣的数学性质。
在第七章中,我们简要介绍遍历理论,将注意力限制在离散时间随机过程的应用上。我们定义了平稳过程和遍历过程的概念,推导了Birkhoff和Kingman的经典定理,并强调了该理论的许多有用应用中的少数几个。
第八章建立了以连续时间参数为指标的右连续随机过程的研究框架,引入了高斯过程族,并严格构造了布朗运动为连续样本路径和零均值平稳独立增量的高斯过程。
第九章将我们先前对鞅和强马尔可夫过程的处理扩展到连续时间的设定,强调了右连续滤波的作用。然后在布朗运动和马尔可夫跳跃过程的背景下说明了这类过程的数学结构。
在此基础上,在第十章中,我们利用不变性原理重新构造了布朗运动作为某些重新标定的随机游动的极限。进一步研究了其样本路径的丰富性质以及布朗运动在clt和迭代对数定律(简称lil)中的许多应用。
自Goodfellow等人2014年开创性的工作以来,生成式对抗网(GAN)就受到了相当多的关注。这种关注导致了GANs的新思想、新技术和新应用的爆炸。为了更好地理解GANs,我们需要理解其背后的数学基础。本文试图从数学的角度对GANs进行概述。许多学数学的学生可能会发现关于GAN的论文更难以完全理解,因为大多数论文是从计算机科学和工程师的角度写的。这篇论文的目的是用他们更熟悉的语言来介绍GANs。
这本书的第五版继续讲述如何运用概率论来深入了解真实日常的统计问题。这本书是为工程、计算机科学、数学、统计和自然科学的学生编写的统计学、概率论和统计的入门课程。因此,它假定有基本的微积分知识。
第一章介绍了统计学的简要介绍,介绍了它的两个分支:描述统计学和推理统计学,以及这门学科的简短历史和一些人,他们的早期工作为今天的工作提供了基础。
第二章将讨论描述性统计的主题。本章展示了描述数据集的图表和表格,以及用于总结数据集某些关键属性的数量。
为了能够从数据中得出结论,有必要了解数据的来源。例如,人们常常假定这些数据是来自某个总体的“随机样本”。为了确切地理解这意味着什么,以及它的结果对于将样本数据的性质与整个总体的性质联系起来有什么意义,有必要对概率有一些了解,这就是第三章的主题。本章介绍了概率实验的思想,解释了事件概率的概念,并给出了概率的公理。
我们在第四章继续研究概率,它处理随机变量和期望的重要概念,在第五章,考虑一些在应用中经常发生的特殊类型的随机变量。给出了二项式、泊松、超几何、正规、均匀、伽玛、卡方、t和F等随机变量。
高斯过程(GPs)为核机器的学习提供了一种有原则的、实用的、概率的方法。在过去的十年中,GPs在机器学习社区中得到了越来越多的关注,这本书提供了GPs在机器学习中理论和实践方面长期需要的系统和统一的处理。该书是全面和独立的,针对研究人员和学生在机器学习和应用统计学。
这本书处理监督学习问题的回归和分类,并包括详细的算法。提出了各种协方差(核)函数,并讨论了它们的性质。从贝叶斯和经典的角度讨论了模型选择。讨论了许多与其他著名技术的联系,包括支持向量机、神经网络、正则化网络、相关向量机等。讨论了包括学习曲线和PAC-Bayesian框架在内的理论问题,并讨论了几种用于大数据集学习的近似方法。这本书包含说明性的例子和练习,和代码和数据集在网上是可得到的。附录提供了数学背景和高斯马尔可夫过程的讨论。
机器学习使用来自各种数学领域的工具。本文件试图提供一个概括性的数学背景,需要在入门类的机器学习,这是在加州大学伯克利分校被称为CS 189/289A。
https://people.eecs.berkeley.edu/~jrs/189/
我们的假设是读者已经熟悉多变量微积分和线性代数的基本概念(达到UCB数学53/54的水平)。我们强调,本文档不是对必备类的替代。这里介绍的大多数主题涉及的很少;我们打算给出一个概述,并指出感兴趣的读者更全面的理解进一步的细节。
请注意,本文档关注的是机器学习的数学背景,而不是机器学习本身。我们将不讨论特定的机器学习模型或算法,除非可能顺便强调一个数学概念的相关性。
这份文件的早期版本不包括校样。我们已经开始在一些证据中加入一些比较简短并且有助于理解的证据。这些证明不是cs189的必要背景,但可以用来加深读者的理解。