近日,本科毕业于哈佛大学统计学与经济学专业、现任哈佛助教的 Daniel Friedman 开放了他撰写的一本免费在线书籍《Machine Learning from Scratch》,该书从理论和数学上介绍了 ML 最常见算法(OLS、逻辑回归、朴素贝叶斯、决策树、boosts 和神经网络等)的完整推论。

地址:https://dafriedman97.github.io/mlbook/content/introduction.html

该书是为读者学习新的机器学习算法或了解更深层次的算法。具体地说,它是为那些有兴趣学习机器学习算法的读者准备的。这些推导可能有助于读者,特别是对基础算法不熟悉的读者,可以更直观地理解它们是如何工作的。或者,这些推导可以帮助有建模经验的读者理解不同算法是如何创建模型,以及每种算法的优缺点。

书籍概述

这本书涵盖了机器学习中最常见的方法。这些方法就像一个工具箱,为那些进入机器学习领域的人提供了便利,从而可以很快地找到所需工具。该书由 7 个章节以及 1 个附录组成。书的每一章节都对应一种机器学习方法或一组方法。

通过学习,你将学得:普通线性回归、线性回归扩展、判别分类器(Logistic 回归)、生成分类器(朴素贝叶斯)以及决策树等算法的完整推论。

每个章节均由这 3 部分组成。

其中,概念部分从概念上介绍这些方法,并从数学上推导结果;构建部分展示了如何使用 Python 从头开始构建方法;实现部分介绍了如何使用 Python 中的工具包(如 scikit-learn、statsmodels 和 tensorflow)应用这些方法。

为什么选择这本书?

现在关于机器学习的书籍数不胜数,在网上就可以免费获得。像《An Introduction to Statistical Learning》、《Elements of Statistical Learning》 和 《Pattern Recognition and Machine Learning》,这些机器学习书籍的作者掌握的知识更丰富,书籍内容涵盖的范围也更广。但值得注意的一点是:这些书籍只提供了概念上的机器学习以及方法背后的理论。

但是,本书重点介绍了机器学习算法的基本框架,旨在为读者提供独立构建这些算法的能力。作为一种「工具箱」而言,本书旨在成为用户指南,它不是用来指导用户关于该领域的广泛实践,而是在微观层面上讲述如何使用每种工具。

这本书需要读者掌握哪些知识?

需要注意的是,这本书的「概念」部分需要读者了解微积分知识,有些还需要了解概率(如最大似然和贝叶斯规则)和基本线性代数知识(如矩阵运算和点积)。

不过,该书附录部分回顾了所需的数学和概率知识。「概念」部分还参考了一些常见的机器学习方法,这些方法在附录中也有介绍。所以,「概念」部分不需要任何编程知识。

该书的「构建」和「代码」部分使用了一些基础的 Python 知识。「构建」部分需要了解相应的内容,并且需要熟悉用 Python 创建函数和类。「代码」部分则不需要这些知识。

参考链接:

https://mp.weixin.qq.com/s/xrUw_4IPI4BhYwHvjSuwzA

成为VIP会员查看完整内容
0
43

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

《数据科学与机器学习概论》的创建目标是为寻求了解数据科学的初学者、数据爱好者和经验丰富的数据专业人士提供从头到尾对使用开源编程进行数据科学应用开发的深刻理解。这本书分为四个部分: 第一部分包含对这本书的介绍,第二部分涵盖了数据科学、软件开发和基于开源嵌入式硬件的领域; 第三部分包括算法,是数据科学应用的决策引擎; 最后一节汇集了前三节中共享的概念,并提供了几个数据科学应用程序示例。

^

  1. Introductory Chapter: Clustering with Nature-Inspired Optimization Algorithms 在本章中,读者将学习如何为聚类问题应用优化算法。

By Pakize Erdogmus and Fatih Kayaalp

  1. Best Practices in Accelerating the Data Science Process in Python

By Deanne Larson

数据科学和大数据项目的数量正在增长,当前的软件开发方法受到了挑战,以支持和促进这些项目的成功和频率。关于如何使用数据科学算法以及大数据的好处已经有了很多研究,但是关于可以利用哪些最佳实践来加速和有效地交付数据科学和大数据项目的研究却很少。大数据的数量、种类、速度和准确性等特点使这些项目复杂化。数据科学家可利用的开源技术的激增也会使情况变得复杂。随着数据科学和大数据项目的增加,组织正在努力成功交付。本文讨论了数据科学和大数据项目过程,过程中的差距,最佳实践,以及这些最佳实践如何在Python中应用,Python是一种常见的数据科学开源编程语言。

  1. Software Design for Success By Laura M. Castro

正如人们所期望的那样,技术书籍的大部分时间都集中在技术方面。然而,这造成了一种错觉,即技术在某种程度上是没有偏见的,总是中性的,因此适合每个人。后来,当产品已经存在时,现实会证明我们不是这样的。包含和表示在设计和建模阶段是至关重要的。在本章中,我们将从架构的角度分析,哪些非功能性需求是最敏感的,以及如何开始讨论它们以最大限度地提高我们的软件产品成功的可能性。

  1. Embedded Systems Based on Open Source Platforms By Zlatko Bundalo and Dusanka Bundalo

  2. The K-Means Algorithm Evolution By Joaquín Pérez-Ortega, Nelva Nely Almanza-Ortega, Andrea Vega-Villalobos, Rodolfo Pazos-Rangel, Crispín Zavala-Díaz and Alicia Martínez-Rebollar

  3. “Set of Strings” Framework for Big Data Modeling By Igor Sheremet

  4. Investigation of Fuzzy Inductive Modeling Method in Forecasting Problems By Yu. Zaychenko and Helen Zaychenko

  5. Segmenting Images Using Hybridization of K-Means and Fuzzy C-Means Algorithms By Raja Kishor Duggirala

  6. The Software to the Soft Target Assessment By Lucia Mrazkova Duricova, Martin Hromada and Jan Mrazek

  7. The Methodological Standard to the Assessment of the Traffic Simulation in Real Time By Jan Mrazek, Martin Hromada and Lucia Duricova Mrazkova

  8. Augmented Post Systems: Syntax, Semantics, and Applications By Igor Sheremet

  9. Serialization in Object-Oriented Programming Languages By Konrad Grochowski, Michał Breiter and Robert Nowak

本章描述了将对象状态转换为一种格式的过程,这种格式可以在当前使用的面向对象编程语言中传输或存储。这个过程称为序列化(封送处理);相反的称为反序列化(反编组)进程。它是一种低级技术,应该考虑一些技术问题,如内存表示的大小、数字表示、对象引用、递归对象连接等。在本章中,我们将讨论这些问题并给出解决办法。我们还简要回顾了当前使用的工具,并指出满足所有需求是不可能的。最后,我们提供了一个新的支持向前兼容性的c++库。

成为VIP会员查看完整内容
0
26

这本书来自统计学习课程,这是一门统计机器学习的入门课程,面向具有一些微积分、线性代数和统计学背景的学生。这门课程的重点是监督学习:分类和回归。本课程将涵盖机器学习和数据科学中使用的一系列方法,包括:

  • 线性回归(包括岭回归和Lasso)
  • 通过logistic回归和k近邻进行分类
  • 线性和二次判别分析
  • 回归和分类树(包括套袋林和随机林)
  • Boosting
  • 神经网络和深度学习

这些方法将在整个课程中被研究并应用于来自各种应用的真实数据。课程还涵盖了一些重要的实际问题,如交叉验证、模型选择和偏方差权衡。课程包括理论(例如,推导和证明)以及实践(特别是实验室和小型项目)。实际部分将使用Python实现。

成为VIP会员查看完整内容
0
51

这本教科书通过提供实用的建议,使用直接的例子,并提供相关应用的引人入胜的讨论,以一种容易理解的方式介绍了基本的机器学习概念。主要的主题包括贝叶斯分类器,最近邻分类器,线性和多项式分类器,决策树,神经网络,和支持向量机。后面的章节展示了如何通过“推进”的方式结合这些简单的工具,如何在更复杂的领域中利用它们,以及如何处理各种高级的实际问题。有一章专门介绍流行的遗传算法。

这个修订的版本包含关于工业中机器学习的实用应用的关键主题的三个全新的章节。这些章节研究了多标签域,无监督学习和它在深度学习中的使用,以及归纳逻辑编程的逻辑方法。许多章节已经被扩展,并且材料的呈现已经被增强。这本书包含了许多新的练习,许多解决的例子,深入的实验,和独立工作的计算机作业。

https://link.springer.com/book/10.1007/978-3-319-63913-0#about

成为VIP会员查看完整内容
0
61

本书涵盖了这些领域中使用Python模块演示的概率、统计和机器学习的关键思想。整本书包括所有的图形和数值结果,都可以使用Python代码及其相关的Jupyter/IPython Notebooks。作者通过使用多种分析方法和Python代码的有意义的示例,开发了机器学习中的关键直觉,从而将理论概念与具体实现联系起来。现代Python模块(如panda、y和Scikit-learn)用于模拟和可视化重要的机器学习概念,如偏差/方差权衡、交叉验证和正则化。许多抽象的数学思想,如概率论中的收敛性,都得到了发展,并用数值例子加以说明。本书适合任何具有概率、统计或机器学习的本科生,以及具有Python编程的基本知识的人。

成为VIP会员查看完整内容
0
73

数据科学库、框架、模块和工具包非常适合进行数据科学研究,但它们也是深入研究这一学科的好方法,不需要真正理解数据科学。在本书中,您将了解到许多最基本的数据科学工具和算法都是通过从头实现来实现的。

如果你有数学天赋和一些编程技能,作者Joel Grus将帮助你熟悉作为数据科学核心的数学和统计,以及作为数据科学家的入门技能。如今,这些杂乱的、充斥着海量数据的数据,为一些甚至没人想过要问的问题提供了答案。这本书为你提供了挖掘这些答案的诀窍。

参加Python速成班

  • 学习线性代数、统计和概率的基础知识,并了解如何以及何时在数据科学中使用它们
  • 收集、探索、清理、分析和操作数据
  • 深入了解机器学习的基本原理
  • 实现诸如k近邻、朴素贝叶斯、线性和逻辑回归、决策树、神经网络和聚类等模型
  • 探索推荐系统、自然语言处理、网络分析、MapReduce和数据库
成为VIP会员查看完整内容
0
50
小贴士
相关VIP内容
专知会员服务
26+阅读 · 9月14日
【干货书】《机器学习导论(第二版)》,348页pdf
专知会员服务
61+阅读 · 6月16日
专知会员服务
50+阅读 · 5月19日
人工智能学习笔记,247页pdf
专知会员服务
85+阅读 · 2019年12月14日
【新书】Python编程基础,669页pdf
专知会员服务
59+阅读 · 2019年10月10日
相关论文
In Defense of LSTMs for Addressing Multiple Instance Learning Problems
Kaili Wang,Jose Oramas,Tinne Tuytelaars
0+阅读 · 9月18日
Aidan Hogan,Eva Blomqvist,Michael Cochez,Claudia d'Amato,Gerard de Melo,Claudio Gutierrez,José Emilio Labra Gayo,Sabrina Kirrane,Sebastian Neumaier,Axel Polleres,Roberto Navigli,Axel-Cyrille Ngonga Ngomo,Sabbir M. Rashid,Anisa Rula,Lukas Schmelzeisen,Juan Sequeda,Steffen Staab,Antoine Zimmermann
67+阅读 · 3月4日
A Modern Introduction to Online Learning
Francesco Orabona
10+阅读 · 2019年12月31日
Bernhard Schölkopf
6+阅读 · 2019年11月24日
A Survey of Learning Causality with Data: Problems and Methods
Ruocheng Guo,Lu Cheng,Jundong Li,P. Richard Hahn,Huan Liu
5+阅读 · 2018年9月25日
Wenhan Xiong,Mo Yu,Shiyu Chang,Xiaoxiao Guo,William Yang Wang
3+阅读 · 2018年8月27日
Kurt Riedel
4+阅读 · 2018年3月14日
Jaakko Lehtinen,Jacob Munkberg,Jon Hasselgren,Samuli Laine,Tero Karras,Miika Aittala,Timo Aila
3+阅读 · 2018年3月12日
Anand Gupta,Hardeo Thakur,Ritvik Shrivastava,Pulkit Kumar,Sreyashi Nag
3+阅读 · 2017年11月25日
Andrew K. Lampinen,James L. McClelland
4+阅读 · 2017年10月27日
Top