对机器学习和数据挖掘很感兴趣,但是数学表示法看起来又奇怪又不直观,那就看看这本书吧。它从概率和线性代数开始,逐渐建立到现代研究论文中使用的常见符号和技术-重点是简单、可爱和实际使用的基本技术。它充满了大量的简单的例子,数以百计的插图和解释,突出的几何解释正在发生什么。抽象的数学和分析技术和模型的动机是真实的问题,并提醒读者在使用这些强大的工具时内在的伦理考虑。

本书的目的是介绍了许多现代数据分析所需的基本数学原理和技术。特别是,它是由主要在两门课程中讲授的材料构建而成的。第一个是早期的本科课程,旨在帮助学生在严格的机器学习和数据挖掘课程中取得成功。第二门课程是高级数据挖掘课程。它应该对这类课程的任何组合都有用。这本书介绍了在本科课程中经常缺席或简短的关键概念工具,对大多数学生来说,有助于多次看到。在这些基础之上,它介绍了构成现代数据分析主干的最基本技术的通用版本。然后深入探讨一些更高级的主题和技术——仍然专注于清晰、直观和持久的想法,而不是不断发展的最新技术中的具体细节。

本书范围

引入的重要概念包括度量的集中和PAC边界、交叉验证、梯度下降、各种距离、主成分分析和图表。这些思想对于现代数据分析是必不可少的,但在计算机科学或数学系的其他数学入门课程中却很少教授。或者,如果教授这些概念,它们是在一个非常不同的背景下呈现的。

我们对监督(回归和分类)和非监督(主成分分析和聚类)学习的基本技术做了阐述。我们努力使这些主题的表述和概念保持简单。我们最初主要坚持那些试图最小化误差平方和的方法。我们首先使用经典但很有效的算法,如Lloyd的k-means,幂法的特征向量,和感知器的线性分类。对于许多学生(甚至是计算机科学课程的学生)来说,这是他们遇到的第一个迭代的、非离散的算法。有时,这本书冒险超出这些基础知识,进入概念,如正则化和Lasso,局部敏感哈希,多维尺度,光谱聚类,神经网络基础,和数据草图。这些课程可以穿插进去,让课程更深入,更高级,因为适合学生的水平。

成为VIP会员查看完整内容
0
57

相关内容

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。

数据科学概率导论

这本书是大学概率论的入门教材。它有一个使命: 阐明我们在科学和工程中使用的概率工具的动机、直觉和含义。从超过五年的课程教学中,我提炼出了我认为是概率方法的核心。我把这本书放在数据科学的背景下,以强调数据(计算)和概率(理论)在我们这个时代的不可分离性。

地址: https://probability4datascience.com/index.html

概率论是电子工程和计算机科学中最有趣的学科之一。它将我们喜爱的工程原理与现实联系起来,这是一个充满不确定性的世界。然而,因为概率是一门非常成熟的学科,单是本科生的课本就可能在图书馆的书架上摆满好几排书。当文学如此丰富时,挑战就变成了一个人如何在深入细节的同时洞察到洞察力。例如,你们中的许多人以前使用过正态随机变量,但你们是否想过“钟形”是从哪里来的?每一门概率课都会教你抛硬币,但是“抛硬币”在今天的机器学习中有什么用呢?数据科学家使用泊松随机变量来模拟互联网流量,但是这个漂亮的泊松方程是从哪里来的呢?这本书的目的是填补这些知识的差距,这是所有数据科学学生必不可少的。

这就引出了本书的三个目标。(i) 动机: 在数学定义、定理、方程的海洋中,为什么我们要把时间花在这个主题上,而不是其他的? (ii) 直觉: 当进行推导时,在这些方程之外是否有几何解释或物理学?(iii) 言外之意: 当我们学习了一个话题后,我们可以解决哪些新问题?本书的目标读者是电子工程和计算机科学专业的本科生三、四年级和一年级研究生。先决条件是标准的本科线性代数和微积分,除了需要傅里叶变换的特征函数部分。一门信号与系统的本科课程就足够了,即使是在学习这本书的同时选修。

这本书的篇幅适合两学期的课程。教师被鼓励使用最适合他们的课程的章节集。例如,基本概率课程可以使用第1-5章作为主干。关于样本统计的第6章适合希望获得概率收敛理论见解的学生。关于回归的第七章和关于估计的第八章最适合学习机器学习和信号处理的学生。第9章讨论了对现代数据分析至关重要的置信区间和假设检验。第10章介绍了随机过程。我的随机过程方法更适合于信息处理和通信系统,这通常与电气工程专业的学生更相关。

本书特色:

涵盖范围广,从经典的概率论到现代数据分析技术 概念的几何和图形解释 与MATLAB / Python紧密集成 机器学习的实际应用

目录内容

Chapter 1 Mathematical Background Chapter 2 Probability Chapter 3 Discrete Random Variables Chapter 4 Continuous Random Variables Chapter 5 Joint Distributions Chapter 6 Sample Statistics Chapter 7 Regression Chapter 8 Estimation Chapter 9 Confidence and Hypothesis Chapter 10 Random Processes

成为VIP会员查看完整内容
0
49

https://www.worldscientific.com/page/pressroom/2018-07-31-01

这本书提供了一个机器学习和数据挖掘领域的数学分析。典型的计算机科学数学课程的数学分析部分省略了这些非常重要的思想和技术,这些思想和技术对于机器学习的专门领域是不可缺少的,以优化为中心,如支持向量机,神经网络,各种类型的回归,特征选择和聚类。本书适用于研究者和研究生,他们将从书中讨论的这些应用领域获益。

数学分析可以被松散地描述为数学的一个领域,其主要对象是研究函数及其关于极限的行为。术语“函数”指的是实参数实函数的广义集合,包括函数、运算符、测度等。在数学分析中,有几个发展良好的领域对机器学习产生了特殊的兴趣:拓扑(具有不同的风格:点集拓扑、组合拓扑和代数拓扑),赋范和内积空间的泛函分析(包括巴拿赫和希尔伯特空间),凸分析,优化,等等。此外,像测量和集成理论这样的学科在统计学中发挥着至关重要的作用,这是机器学习的另一个支柱,在计算机科学家的教育中缺乏。我们的目标是为缩小这一差距做出贡献,这是对研究感兴趣的人的一个严重障碍。机器学习和数据挖掘文献非常广泛,包括各种各样的方法,从非正式的到复杂的数学展示。然而,接近研究主题所需要的必要的数学背景通常以一种简洁和无动机的方式呈现,或者干脆就不存在。本卷机器学习的通常介绍,并提供(通过其应用章节,讨论优化,迭代算法,神经网络,回归,和支持向量机)的数学方面的研究。

成为VIP会员查看完整内容
0
92

作者是莫斯科国立大学数学教授Georgi E. Shilov,主要内容包括行列式,线性空间,线性方程组,向量自变量的线性函数,坐标变换,线性算子矩阵的规范形式,双线性和二次形式,欧几里德空间,酉空间,欧几里德和酉空间中的二次形式,有限维代数及其表示,并对有限维空间的类别进行了附录。

作者从初级材料开始,很容易进入高级领域,涵盖了所有高级本科生或研究生课程的标准主题。材料以一贯清晰的风格呈现。问题包括,一个完整的部分提示和答案在后面。

在他的方法中牢记代数、几何和分析的统一,并为需要学习技巧的学生写作,希洛夫教授在这个问题上做出了最好的阐述之一。因为它包含大量的问题和例子,这本书将是有用的自学和课堂。

成为VIP会员查看完整内容
0
32

这本书的书名听起来有点神秘。如果这本书以一种错误的方式呈现了这个主题,人们为什么要读它呢?书中哪些地方做得特别“不对”?

在回答这些问题之前,让我先描述一下本文的目标受众。这本书是“荣誉线性代数”课程的课堂讲稿。这应该是高等数学学生的第一门线性代数课程。它的目标是一个学生,虽然还不是非常熟悉抽象推理,但愿意学习更严格的数学,在“烹饪书风格”的微积分类型课程。除了作为线性代数的第一门课程,它也应该是第一门向学生介绍严格证明、形式定义——简而言之,现代理论(抽象)数学风格的课程。

目标读者解释了基本概念和具体实例的非常具体的混合,它们通常出现在介绍性的线性代数文本中,具有更抽象的定义和高级书籍的典型构造。

https://www.math.brown.edu/streil/papers/LADW/LADW_2017-09-04.pdf

成为VIP会员查看完整内容
0
62

统计学正迅速成为数学中最重要的多学科领域。据美国统计协会称,统计学是增长最快的10个职业之一,而统计学是增长最快的学士学位之一。统计素养对我们这个数据驱动的社会至关重要。尽管对统计能力的重要性和需求增加,但统计方面的教学方法几乎没有改变。使用Mike Bostock的数据可视化软件,D3.js,看到理论可视化的基本概念所涵盖的大学统计学导论或大学预修课程的统计。我们鼓励学生将视觉理论作为教科书、教授和同学的额外资源。

来自斯坦福大学的一位研究生和他的伙伴们开发了一本颇有新意的统计概率入门教材,与传统教材不同的是,这本书充分利用了数据可视化技术,交互性和趣味性都非常强,可以边读边玩。

该书共分为 6 章,分别为基础概率论、进阶概率论、概率分布、统计推断:频率学派、统计推断:贝叶斯学派和回归分析,每章分为三个小节,如图所示:

成为VIP会员查看完整内容
0
37

线性代数是计算和数据科学家的基本工具之一。这本书“高级线性代数:基础到前沿”(ALAFF)是一个替代传统高级线性代数的计算研究生课程。重点是数值线性代数,研究理论、算法和计算机算法如何相互作用。这些材料通过将文本、视频、练习和编程交织在一起来保持学习者的参与性。

我们在不同的设置中使用了这些材料。这是我们在德克萨斯大学奥斯汀分校名为“数值分析:线性代数”的课程的主要资源,该课程由计算机科学、数学、统计和数据科学、机械工程以及计算科学、工程和数学研究生课程提供。这门课程也通过UT-Austin计算机科学硕士在线课程提供“高级线性代数计算”。最后,它是edX平台上名为“高级线性代数:基础到前沿”的大规模在线开放课程(MOOC)的基础。我们希望其他人可以将ALAFF材料重新用于其他学习设置,无论是整体还是部分。

为了退怕学习者,我们采取了传统的主题的数字线性代数课程,并组织成三部分。正交性,求解线性系统,以及代数特征值问题。

  • 第一部分:正交性探讨了正交性(包括规范的处理、正交空间、奇异值分解(SVD)和解决线性最小二乘问题)。我们从这些主题开始,因为它们是其他课程的先决知识,学生们经常与高等线性代数并行(甚至在此之前)进行学习。

  • 第二部分:求解线性系统集中在所谓的直接和迭代方法,同时也引入了数值稳定性的概念,它量化和限定了在问题的原始陈述中引入的误差和/或在计算机算法中发生的舍入如何影响计算的正确性。

  • 第三部分:代数特征值问题,重点是计算矩阵的特征值和特征向量的理论和实践。这和对角化矩阵是密切相关的。推广了求解特征值问题的实用算法,使其可以用于奇异值分解的计算。本部分和本课程以在现代计算机上执行矩阵计算时如何实现高性能的讨论结束。

成为VIP会员查看完整内容
0
107

当看到这些材料时,一个明显的问题可能会出现:“为什么还要写一本深度学习和自然语言处理的书呢?”一些优秀的论文已经出版,涵盖了深度学习的理论和实践方面,以及它在语言处理中的应用。然而,从我教授自然语言处理课程的经验来看,我认为,尽管这些书的质量非常好,但大多数都不是针对最有可能的读者。本书的目标读者是那些在机器学习和自然语言处理之外的领域有经验的人,并且他们的工作至少部分地依赖于对大量数据,特别是文本数据的自动化分析。这些专家可能包括社会科学家、政治科学家、生物医学科学家,甚至是对机器学习接触有限的计算机科学家和计算语言学家。

现有的深度学习和自然语言处理书籍通常分为两大阵营。第一个阵营专注于深度学习的理论基础。这对前面提到的读者肯定是有用的,因为在使用工具之前应该了解它的理论方面。然而,这些书倾向于假设一个典型的机器学习研究者的背景,因此,我经常看到没有这种背景的学生很快就迷失在这样的材料中。为了缓解这个问题,目前存在的第二种类型的书集中在机器学习从业者;也就是说,如何使用深度学习软件,而很少关注理论方面。我认为,关注实际方面同样是必要的,但还不够。考虑到深度学习框架和库已经变得相当复杂,由于理论上的误解而滥用它们的可能性很高。这个问题在我的课程中也很常见。

因此,本书旨在为自然语言处理的深度学习搭建理论和实践的桥梁。我涵盖了必要的理论背景,并假设读者有最少的机器学习背景。我的目标是让任何上过线性代数和微积分课程的人都能跟上理论材料。为了解决实际问题,本书包含了用于讨论的较简单算法的伪代码,以及用于较复杂体系结构的实际Python代码。任何上过Python编程课程的人都应该能够理解这些代码。读完这本书后,我希望读者能有必要的基础,立即开始构建真实世界的、实用的自然语言处理系统,并通过阅读有关这些主题的研究出版物来扩展他们的知识。

http://clulab.cs.arizona.edu/gentlenlp/gentlenlp-book-05172020.pdf

成为VIP会员查看完整内容
0
72
小贴士
相关资讯
421页《机器学习数学基础》最新2019版PDF下载
学会这10种机器学习算法,你才算入门(附教程)
七月在线实验室
4+阅读 · 2018年4月13日
“花书”的佐餐,你的线性代数笔记
量子位
5+阅读 · 2018年3月29日
吴恩达机器学习课程
平均机器
6+阅读 · 2018年2月5日
【入门】数据分析六部曲
36大数据
11+阅读 · 2017年12月6日
搞人工智能必备“数学库”
机器学习算法与Python学习
5+阅读 · 2017年11月20日
数学不好,如何转行人工智能?
算法与数学之美
3+阅读 · 2017年11月17日
相关论文
Learning Topic Models: Identifiability and Finite-Sample Analysis
Yinyin Chen,Shishuang He,Yun Yang,Feng Liang
0+阅读 · 10月8日
Asangi Jayatilaka,Nalin Asanka Gamagedara Arachchilage,Muhammad Ali Babar
0+阅读 · 10月7日
Fangzhen Zhao,Chenyi Zhang,Naipeng Dong,Zefeng You,Zhenxin Wu
0+阅读 · 10月6日
Shashank Singh,Justin Khim
0+阅读 · 10月6日
Zhiqing Sun,Zhi-Hong Deng,Jian-Yun Nie,Jian Tang
8+阅读 · 2019年2月26日
Wenbin Li,Jing Huo,Yinghuan Shi,Yang Gao,Lei Wang,Jiebo Luo
8+阅读 · 2018年5月15日
Myle Ott,Michael Auli,David Granger,Marc'Aurelio Ranzato
5+阅读 · 2018年2月28日
Kien Do,Truyen Tran,Svetha Venkatesh
4+阅读 · 2018年1月26日
Alireza Ghasemi,Hamid R. Rabiee,Mohsen Fadaee,Mohammad T. Manzuri,Mohammad H. Rohban
3+阅读 · 2016年2月24日
Top