【机器学习】机器学习:数学、概率与人工智能杂谈

2017 年 7 月 31 日 产业智能官

机器学习编年史

这几年机器学习火热,很大程度上是由于深度学习分支给机器学习送入了大量新鲜活力。

统计学家说:“我概率统计理论,我来讲!" (代表 Leonard E. Baum [隐马尔科夫模型])

数学家说:“我有严谨数学证明,我来讲!” (代表 Vapnik [SVM支持向量机])

神经计算&计算机科学家说:“我有自然法则,我来讲!” (代表 Geoffrey Hinton [神经网络])

这三家的理论争鸣,促成了今天机器学习学派三分天下局面。

按历史来说(对概率统计了解有限,编年史多有遗漏):

 

1965年 Rosenblatt感知器开启了神经网络学派的先河。[神经网络学派]

1965年 HMM隐马尔科夫模型掀起了统计预测学的热潮。[概率统计学派]

1974年 基于信息熵的ID3决策树掀起了统计机器学习热潮。[统计机器学习学派]

1980年 马尔科夫随机场提出。[概率统计学派]

1982年 Hopfield神经网络引起神经模拟热潮。[神经网络学派]

1984年 CART分类回归树提出。[统计机器学派]

1985年 贝叶斯网络提出。[概率统计学派]

1986年 反向传播训练算法提出,前馈神经网络登上舞台。[神经网络学派]

1986年 RBM限制玻尔兹曼神经网络,因为无有效训练算法,无影响。[神经网络学派]

1990年 多层前馈网络实现无果,神经网络走向低谷。[神经网络学派]

1990年 循环递归神经网络RNN(Elman、Jordan)提出。[神经网络学派]

1992年 SVM支持向量机提出,因为训练算法需要二次规划,关注不高。[统计机器学习学派]

1993年 C4.5决策树提出。[统计机器学习学派]

1997年 RNN变种,LSTM长短期记忆网络提出。[神经网络学派]

1998年 CNN卷积神经网络提出。[神经网络学派]

1998年 SVM支持向量机的SMO训练算法提出,SVM开始普及。[统计机器学习学派]

2000年 Adaboost决策树提出。[统计机器学习学派]

2001年 随机森林决策树提出。[统计机器学习学派]

2005年 对比散度训练算法提出,RBM限制玻尔兹曼登上舞台。[神经网络学派]

2006年 深信度网络(DBN)提出,深度学习概念提出。[神经网络学派]

2007年 AutoEncoder自动编码器提出。[神经网络学派]

 

理性与感性之争:数理证明与假设实验

细分为三派,其实归根结底就是两派:

①拥有严谨推理证明的理性派。[统计机器学习派+概率统计学派]

②崇尚先假设,后验证的感性派。[神经网络学派]

有趣的是,这两股力量分别有学术界两位泰斗坐镇,分别是Michael I. Jordan和Geoffrey Hinton

摘自 http://blog.sina.com.cn/s/blog_5980285201015311.html 的人物列传:

Yann LeCun是Geoffrey Hinton的博士

Yoshua Bengio是Michael Jordan的博士后

Yann LeCun与Yoshua Bengio在AT&T Bell Labs是同事(1992-1993)

 

★Hinton今年70岁,是逻辑学家乔治·布尔(bool类型,19世纪著名数学家)的玄孙。

他父亲是昆虫学家,他祖父是数学家和科幻小说家,他曾祖父是外科医生和自然生理小说家。

 

★Jordan曾经想申请Hinton的博士生,被拒了,理由:论文太少。

 

★Jordan在神经网络中出名之作的就是在1990年提出的Jordan‘s simple RNN,此时神经网络已经进入衰落期。

 

★Jordan被拒了之后,从神经网络转向了概率统计(概率图),蹲点Stanford,Andrew Ng是他的学生。

 

★Andrew Ng的同事,Coursera联合创始人Daphne Koller是概率图模型大牛,但Ng本人却去搞了深度学习。

 

★机器学习两大顶级会议之一的NIPS(神经信息促进大会),基本由下图这些人、以及各自的研究组控制着。

 

 

理性派发言人Michael I. Jordan:机器学习不能没有数学证明

引用自:http://www.infoq.com/cn/news/2014/10/reddit

首先Jordan提到,他个人并没有把统计学和机器学习区分开。

他认为把理论和实际明确分开是没有很大用处的,它们的相互作用已经被证明了是很有用的,当越来越复杂的系统诞生时,它们也会互相促进并且提升。

设想一下建一座桥的工程,这是从物理界到人文界工程师都需要一起参与的工程链,建筑师需要设计桥梁,土木工程师需要保证桥梁不会在某些极端条件下塌陷等等。

在这条链中几乎没有人不知道把“理论概念”和“工程实际”结合起来,这一点已经在几十年里都被证明过了。

类似的,Maxwell方程为电子学提供了理论依据,但是感应匹配之类的想法也是在工程上开始建造电路和和流水线之后才进入人们的视线的,这些想法都是结合了理论和实际的。

 

感性派发言人Yoshua Bengio:只需实验、假设和验证

引用自 http://www.infoq.com/cn/articles/ask-yoshua-bengio/

问:Bengio教授您好,我是McGill大学的本科生,从事类型论(译者注:与集合论差不多的学科)方面的研究,我的问题是:

我所在的领域很注重形式化证明,机器学习领域有没有关注形式化证明的课题呢?

如果没有的话,怎么保证学科的严谨性?有没有人研究用深度学习产生程序 呢?

答:有一种非常简单的方法,让我们无需证明,就能够得到学科的严谨性,大家都经常用到:叫做科学方法论,

它依赖 实验、假设和验证。另外,深度学习的论文里逐渐出现越来越多的数学。

 

人工智能与先验知识

一个机器学习问题如果有严谨的数学证明,那么就没有什么讨论的必要了。

但人工智能属于超级超级超级的民科问题,打开百度贴吧:人工智能,满眼:

神经网络学派作为机器学习派系之一,主要任务就是把人工智能这个民科问题给专科化。

武器叫 "Prior-Knowledge”,在Bengio的论文Learning Deep Architectures for AI 提到较多。

所谓的先验知识,就是凭感觉、无严谨数学证明的黑科技。

AI那一套鬼Agent理论,本质就是依赖大量的Prior植入模型系统,搞出伪人工智能。

Prior:If、else和机器人足球

Robocup基本就是If...else...撑起来的,本质上可以算是一种低级的Prior。当然数学证明就免了。

If...else相当于直接向模型里注入人工设定的响应内容。

这种方法是冯·诺依曼结构的典型例子。众所周知,限于条件,冯·诺依曼造不出终极人工智能机器——图灵机。

于是用了这种暴力的方法填充出低级智能,和下面的具有学习能力的Prior相比,实在是太Low了。

而下面这些具有Adaptive Learning的Prior则是对神经响应机制建模,利用这些机制生成响应内容。

按照Hinton的说法,叫做“Neural Computation&Adaptive Perception”(神经计算与自适应感知

Prior:针对图像空间相对平滑的特殊处理手段

CNN卷积神经网络中,除了Smooth之外。还有注入了一些针对图像处理的Prior:

局部连接:Locality

权值共享:Weight Sharing

降采样:Pooling

这些特殊手段,都有利于提取出图像数据中的Data Distribution。

Prior:针对时序记忆的特殊处理手段

RNN中,除了注入Smooth之外。还有针对自然语言上下文关联的Prior,即时序记忆。

在当前状态T,输入记忆着1、2、.....T-1的所有状态,协助理解自然语言的上下文含义。

Prior:重构学习与降噪

众所周知,Hinton组的RBM是有严格数学证明的,很明显是一个