人工智能入门书单（附PDF链接）

会员服务 ·

人工智能入门书单（附PDF链接）

2018 年 1 月 24 日 InfoQ 王天一

点击关注 InfoQ，置顶公众号

接收程序员的 8 点技术早餐

作者｜王天一

出处｜极客时间专栏《人工智能基础课》

工学博士、副教授的人工智能珍藏书单，随文附送 PDF 版本链接。

机器学习篇

在机器学习上，首先要推荐的是两部国内作者的著作：李航博士所著的《统计学习方法》和周志华教授的《机器学习》。

《统计学习方法》采用“总 - 分 - 总”的结构，在梳理了统计学习的基本概念后，系统而全面地介绍了统计学习中的 10 种主要方法，最后对这些算法做了总结与比较。这本书以数学公式为主，介绍每种方法时都给出了详尽的数学推导，几乎不含任何废话，因而对读者的数学背景也提出了较高的要求。

相比之下，《机器学习》覆盖的范围更广，具有更强的导论性质，有助于了解机器学习的全景。书中涵盖了机器学习中几乎所有算法类别的基本思想、适用范围、优缺点与主要实现方式，并穿插了大量通俗易懂的实例。

如果说《统计学习方法》胜在深度，那么《机器学习》就胜在广度。在具备广度的前提下，可以根据《机器学习》中提供的丰富参考文献继续深挖。

读完以上两本书，就可以阅读一些经典著作了。经典著作首推 Tom Mitchell 所著的 Machine Learning，中译本名为《机器学习》。本书成书于 1997 年，虽然难以覆盖机器学习中的最新进展，但对于基本理论和核心算法的论述依然鞭辟入里，毕竟经典理论经得起时间的考验。这本书的侧重点也在于广度，并不涉及大量复杂的数学推导，是比较理想的入门书籍。作者曾在自己的主页上说本书要出新版，并补充了一些章节的内容，也许近两年可以期待新版本的出现。

另一本经典著作是 Trevor Hastie 等人所著的 Elements of Statistical Learning，于 2016 年出版了第二版。这本书没有中译，只有影印本。高手的书都不会用大量复杂的数学公式来吓唬人（专于算法推导的书除外），这一本也不例外。它强调的是各种学习方法的内涵和外延，相比于具体的推演，通过方法的来龙去脉来理解其应用场景和发展方向恐怕更加重要。

压轴登场的非 Christopher Bishop 所著的 Pattern Recognition and Machine Learning 莫属了。本书出版于 2007 年，没有中译本，也许原因在于将这样一本煌煌巨著翻译出来不知要花费多少挑灯夜战的夜晚。这本书的特点在于将机器学习看成一个整体，不管于基于频率的方法还是贝叶斯方法，不管是回归模型还是分类模型，都只是一个问题的不同侧面。作者能够开启上帝视角，将机器学习的林林总总都纳入一张巨网之中，遗憾的是，大多数读者跟不上他高屋建瓴的思路（也包括我自己）。

最后推荐的是 David J C MacKay 所著的 Information Theory, Inference and Learning Algorithms，成书于 2003 年，中译本名为《信息论，推理与学习算法》。本书作者是一位全才型的科学家，这本书也并非机器学习的专著，而是将多个相关学科熔于一炉，内容涉猎相当广泛。相比于前面板着脸的教科书，阅读本书的感觉就像在和作者聊天，他会在谈笑间抛出各种各样的问题让你思考。广泛的主题使本书的阅读体验并不轻松，但可以作为扩展视野的一个调节。

数学篇

1、线性代数

推荐两本国外的教材。其一是 Gilbert Strang 所著的 Introduction to Linear Algebra，英文版在 2016 年出到第五版，暂无中译本。这本通过直观形象的概念性解释阐述抽象的基本概念，同时辅以大量线性代数在各领域内的实际应用，对学习者非常友好。作者在麻省理工学院的 OCW 上开设了相应的视频课程，还配有习题解答、模拟试题等一系列电子资源。

其二是 David C Lay 所著的 Linear Algebra and its Applications，英文版在 2015 年同样出到第五版，中译本名为《线性代数及其应用》，对应原书第四版。这本书通过向量和线性方程组这些基本概念深入浅出地介绍线代中的基本概念，着重公式背后的代数意义和几何意义，同样配有大量应用实例，对理解基本概念帮助很大。

2、概率论

基础读物可以选择 Sheldon M Ross 所著的 A First Course in Probability，英文版在 2013 年出到第九版（18 年马上要出第十版），中译本名为《概率论基础教程》，对应原书第九版，也有英文影印本。这本书抛开测度，从中心极限定理的角度讨论概率问题，对概念的解释更加通俗，书中还包含海量紧密联系生活的应用实例与例题习题。

另一本艰深的读物是 Edwin Thompson Jaynes 所著的 Probability Theory: The Logic of Science，本书暂无中译本，影印本名为《概率论沉思录》也已绝版。这本书是作者的遗著，花费半个世纪的时间完成，从名字就可以看出是一部神书。作者从逻辑的角度探讨了基于频率的概率，贝叶斯概率和统计推断，将概率论这门偏经验的学科纳入数理逻辑的框架之下。如果读这本书，千万要做好烧脑的准备。

3、数理统计

基础读物可以选择陈希孺院士所著的《数理统计学教程》。关于统计学是不是科学的问题依然莫衷一是，但它在机器学习中的重要作用毋庸置疑。陈老的书重在论述统计的概念和思想，力图传授利用统计观点去观察和分析事物的能力，这是非常难能可贵的。

进阶阅读可以选择 Roger Casella 所著的 Statistical Inference，由于作者已于 2012 年辞世，2001 年的第二版便成为绝唱。中译本名为《统计推断》，亦有影印本。本书包含部分概率论的内容，循循善诱地介绍了统计推断、参数估计、方差回归等统计学中的基本问题。

4、最优化理论

可以参考 Stephen Boyd 所著的 Convex Optimization，中译本名为《凸优化》。这本书虽然块头吓人，但可读性并不差，主要针对实际应用而非理论证明，很多机器学习中广泛使用的方法都能在这里找到源头。

5、信息论

推荐 Thomas Cover 和 Jay A Thomas 合著的 Elements of Information Theory，2006 年出到第二版，中译本为《信息论基础》。这本书兼顾广度和深度，虽然不是大部头却干货满满，讲清了信息论中各个基本概念的物理内涵，但要顺畅阅读需要一定的数学基础。另外，本书偏重于信息论在通信中的应用。

作者介绍

王天一，北京邮电大学工学博士，贵州大学大数据与信息工程学院副教授，贵州省 3D 数字医疗学会会员。在读期间主要研究方向为连续变量量子通信理论与系统，主持并参与多项国家级 / 省部级科研项目，以第一作者身份发表 SCI 论文 5 篇。

目前主要研究方向为大数据与人工智能，研究内容包括以物联网为基础的大数据应用及神经网络与机器学习。除技术领域外，对人工智能的发展方向与未来趋势亦有深入思考，著有《人工智能革命》一书。

PDF 链接

机器学习篇

Machine Learning
http://www.cs.ubbcluj.ro/~gabis/ml/ml-books/McGrawHill%20-%20Machine%20Learning%20-Tom%20Mitchell.pdf
Elements of Statistical Learning
https://web.stanford.edu/~hastie/Papers/ESLII.pdf
Pattern Recognition and Machine Learning
http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf
Information Theory, Inference and Learning Algorithms
http://www.inference.org.uk/itprnn/book.pdf

数学篇

Introduction to Linear Algebra
https://math.mit.edu/~gs/linearalgebra/linearalgebra5_Preface.pdf
Linear Algebra and its Applications
http://www.zuj.edu.jo/download/linear-algebra-and-its-applications-david-c-lay-pdf/
A First Course in Probability（8th edition）
http://julio.staff.ipb.ac.id/files/2015/02/Ross_8th_ed_English.pdf
Probability Theory: The Logic of Science
http://www.med.mcgill.ca/epidemiology/hanley/bios601/GaussianModel/JaynesProbabilityTheory.pdf
Statistical Inference
https://fsalamri.files.wordpress.com/2015/02/casella_berger_statistical_inference1.pdf
Convex Optimization
https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
Elements of Information Theory
http://www.cs-114.org/wp-content/uploads/2015/01/Elements_of_Information_Theory_Elements.pdf