机器学习是计算机科学中增长最快的领域之一,具有深远的应用。本书的目的是介绍机器学习,以及它所提供的算法范例。本书对机器学习的基本原理和将这些原理转化为实际算法的数学推导提供了理论解释。在介绍了基础知识之后,这本书涵盖了以前教科书没有涉及到的一系列广泛的中心主题。这些包括讨论学习的计算复杂性和凸性和稳定性的概念;重要的算法范例包括随机梯度下降、神经网络和结构化输出学习;以及新兴的理论概念,如PAC-Bayes方法和基于压缩的界限。本文面向高级本科生或刚毕业的学生,使统计学、计算机科学、数学和工程学领域的学生和非专业读者都能接触到机器学习的基本原理和算法。

https://www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html

概述

机器学习是指自动检测数据中有意义的模式。在过去的几十年里,它已经成为几乎所有需要从大数据集中提取信息的任务的通用工具。我们被一种基于机器学习的技术包围着:搜索引擎学习如何给我们带来最好的结果(同时投放有利可图的广告),反垃圾邮件软件学习如何过滤我们的电子邮件信息,信用卡交易被一种学习如何侦测欺诈的软件保护着。数码相机学会识别人脸,智能手机上的智能个人辅助应用学会识别语音指令。汽车配备了使用机器学习算法构建的事故预防系统。机器学习还广泛应用于生物信息学、医学和天文学等科学领域。

所有这些应用程序的一个共同特征是,与计算机的更传统使用相比,在这些情况下,由于需要检测的模式的复杂性,人类程序员无法提供关于这些任务应该如何执行的明确、详细的规范。以智慧生物为例,我们的许多技能都是通过学习我们的经验(而不是遵循给我们的明确指示)而获得或改进的。机器学习工具关注的是赋予程序“学习”和适应的能力。

这本书的第一个目标是提供一个严格的,但易于遵循,介绍机器学习的主要概念: 什么是机器学习?

本书的第二个目标是介绍几种关键的机器学习算法。我们选择展示的算法一方面在实践中得到了成功应用,另一方面提供了广泛的不同的学习技术。此外,我们特别关注适合大规模学习的算法(又称“大数据”),因为近年来,我们的世界变得越来越“数字化”,可用于学习的数据量也在急剧增加。因此,在许多应用中数据量大,计算时间是主要瓶颈。因此,我们明确地量化了学习给定概念所需的数据量和计算时间。

目录:

  • Introduction

Part I: Foundations

  • A gentle start
  • A formal learning model
  • Learning via uniform convergence
  • The bias-complexity trade-off
  • The VC-dimension
  • Non-uniform learnability
  • The runtime of learning

Part II: From Theory to Algorithms

  • Linear predictors
  • Boosting
  • Model selection and validation
  • Convex learning problems
  • Regularization and stability
  • Stochastic gradient descent
  • Support vector machines
  • Kernel methods
  • Multiclass, ranking, and complex prediction problems
  • Decision trees
  • Nearest neighbor
  • Neural networks

Part III: Additional Learning Models

  • Online learning
  • Clustering
  • Dimensionality reduction
  • Generative models
  • Feature selection and generation

Part IV: Advanced Theory

  • Rademacher complexities
  • Covering numbers
  • Proof of the fundamental theorem of learning theory
  • Multiclass learnability
  • Compression bounds
  • PAC-Bayes

Appendices

  • Technical lemmas
  • Measure concentration
  • Linear algebra
成为VIP会员查看完整内容
301

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
150+阅读 · 2020年6月27日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
336+阅读 · 2020年6月24日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
390+阅读 · 2020年6月8日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
225+阅读 · 2020年5月2日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
199+阅读 · 2020年2月7日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
183+阅读 · 2019年12月28日
【电子书】机器学习实战(Machine Learning in Action),附PDF
专知会员服务
124+阅读 · 2019年11月25日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
421页《机器学习数学基础》最新2019版PDF下载
可解释的机器学习
平均机器
25+阅读 · 2019年2月25日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
Machine Learning:十大机器学习算法
开源中国
19+阅读 · 2018年3月1日
机器学习新手必看10大算法
深度学习世界
4+阅读 · 2018年2月1日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
4+阅读 · 2018年3月19日
Arxiv
3+阅读 · 2018年1月10日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
150+阅读 · 2020年6月27日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
336+阅读 · 2020年6月24日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
390+阅读 · 2020年6月8日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
225+阅读 · 2020年5月2日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
199+阅读 · 2020年2月7日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
183+阅读 · 2019年12月28日
【电子书】机器学习实战(Machine Learning in Action),附PDF
专知会员服务
124+阅读 · 2019年11月25日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
相关资讯
相关论文
Arxiv
22+阅读 · 2019年11月24日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
4+阅读 · 2018年3月19日
Arxiv
3+阅读 · 2018年1月10日
Arxiv
9+阅读 · 2018年1月4日
微信扫码咨询专知VIP会员