深度学习,你就是那位116岁的长寿老奶奶!

2018 年 5 月 21 日 人工智能前沿讲习班

作者简介

张军平教授是复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。曾于2007.9-2008.3年作为访问学者访问加州大学圣地亚哥校,2014.8-2015.8年作为访问学者和Research Associate访问宾夕法尼亚州立大学。曾主持3个国家自然科学基金、863项目和教育部博士点基金各一项,参与国家自然基金重点一项,也是973项目“数字媒体理解的理论和方法研究”的主要参加人之一。目前主持国家自然基金面上项目一项和浦江人才计划一项。张教授发表论文近100篇,包括TPAMI, TNNLS, ToC, PR, ICML, ECCV等高档次期刊和会议,学术谷歌引用2400余次。



以下为正文




2015年有条新闻,当年116岁的纽约布鲁克林老太太琼斯接受采访。记者问其养生之道,告之,每天早餐吃四片培根。没错,就是“知识就是力量,法国就是培根”里的培根。

这种另类的长寿秘诀在百岁老人中似乎并非个例。美国一著名的搜索“令人惊奇事件”的网站曾特地搜罗过,比如百岁老人英国人多萝西·豪喜好金铃威士忌和每天抽15根超级帝王香烟,1997年辞世的122岁老人让娜·卡尔芒每周会吃约1公斤的巧克力,美国沃思堡的104岁老人伊丽莎白·沙利文喜欢每天喝三厅“碳酸”饮料,美国密歇根州104岁的特雷莎·罗利每天一瓶无糖可乐国人也能找到类似的例子,比如在湖北蔡甸城关肖家164号的102岁长寿太婆周如英从80岁开始每天一升可乐。2014年台北110岁的老太太林黄玉珍特别喜欢喝红酒、薯条。

为什么明明不符合共识的养生之道却能奏效呢?这其中有个统计的解释。共识的养生之道是通过归纳的方式总结的经验。归纳是由一系列具体的事实概括出一般原理。在数学上,则是从众多个别的事物或样本中概括出一般性的概念、原则或结论。归纳追求的是统计上的共性、平均,关心的也不是个例上的特定品质。既然是共性、平均,他自然会光滑掉某些成功的长寿个例的品质。其次,在统计或归纳的时候往往是基于共同的结构,而不会过多地考虑甚至会忽略个体间差异。所以,如果过份地相信统计和归纳,就可能陷入一个误区,认为这些个例是不合理的。

从这个角度看,近年来引发第三波人工智能热潮的深度学习就像是那位116岁的长寿老奶奶,而深度学习之前的做法则像是共识的养生之道。

那么以前的“养生之道”是怎么玩的呢?以预测任务为例,我们的目标是希望学习到的模型在预测未知目标时越精确越好。但放在统计学习框架下,我们会碰到模型复杂性问题。这一问题的来源在于,设计的每个模型离真实的模型之间总会有偏差的存在,同时,模型的参数会导致其模型自身在寻优时存在波动,即会产生方差。因此,从统计意义来讲,一个好的模型需要在偏差和方差之间寻找平衡,如图1所示。在深度学习未包打天下之前的年代,这种平衡往往是通过控制模型的复杂性来获得的。对于复杂性的认识,这几十年来一直在变迁中。有通过控制模型的参数数量来实现的,如贝叶斯信息准则、Akaike信息准则;有从信息论的编码长度角度出发的,如Kolmogrov引出的最小描述长度,面向聚类的最小信息长度;有从数据几何结构出发的,如限束空间光滑性的流形约束;有从稀疏性角度出发的,如惩罚模型系数总量的L1范数;还有从模型结构的推广能力进行惩罚的,如统计机器学习中曾经盛行一时的VC维、最大边缘等约束。

1横坐标:模型复杂性;纵坐标:误差;红线:偏差;绿线:方差;黑线:总体误差;虚线:最优模型复杂性

不管是哪种复杂性,都是希望在统计意义下,从某个侧面去逼近真实世界的局部甚至整体,获得在其假设下的理论最优解。因为是归纳求解,解通常是稳定的,不会出现多少异类。

那么,深度学习又是怎么玩的呢?不管采用什么样的结构,深度学习最明显的特点就是模型深,参数多。自2006年深度伯兹曼机的提出至今,残差网、稠密网、Inception网等各种深度学习模型的可调整参数的数量都在百万级甚至百万级的百倍以上。这带来一个好处,即他能表达一个远大于原有空间的空间,学术上称之为过完备空间。一般来说,在这个过完备空间上寻找不符合统计规律、但却具有优良品质的个例的机会就显著增大了。

那么为什么以前不做呢?一方面之前没有那么大规模的数据量,另一方面以前的工程技术也不支持考虑这么大规模的模型。目前多数已知的传感器成本降了不少、各种类型的数据获取成本也下来了,所以能看到PB级甚至ZB级的数据,如图像、语音、文本等。实在找不到数据的领域,还可以通过14年提出的生成式对抗网络来生成足够逼真的、海量的大数据。这两者都使得训练好的模型在刻画这个过完备空间的能力上增强了不少。

其次,工程技术上的革新也推动了深度学习的成功。深度学习的前身如多层感知器或其它神经网络模型在利用经典的反向传播算法调整模型的参数时,往往会陷入局部极小、过度拟合、会存在调参停滞的梯度消失、梯度爆炸等问题,还缺乏处理大规模数据需要的并行计算能力。这些问题,在近10年的深度学习发展中或多或少都得到了部分解决,比如通过规一化来防止梯度消失的Batch Normalization(批规范化)技术,考虑增强网络的稳定性、对网络层进行百分比随机采样的Drop Out技术,还有数据增广技术等。这使得深度学习在这个过完备空间搜索具有优良品质的个例的算力得到了显著增强。

那么,能否找到这些个例吗?当然可以,只要足够耐心,模型的参数空间能够过完备的超过原任务空间的大小,总有办法通过精细调整模型的参数去幸运地找到这些个例,而且这些个例显然不会只止一个。现有的深度学习在软硬件两方面都可以以大概率保证找到一群“116岁的长寿老太太”。这对于产业界来说,是件好事。因为产业界追求最优性能,而非统计意义上的平均性能。所以,不管你是白猫还是黑猫,只要能捉老鼠都是好猫。这大概就是现在深度学习成功的原因之一。

但是,有得必有失。既然寻找的是个例,过完备空间又不小,寻找的过程自然多少需要点运气。另外,它也不是纯粹的统计或归纳,也就没办法形成稳定性的、具有共识的“养生之道”,甚至从中归纳出一套类似于“模型复杂性”的合理理论都有可能难以下手。 如果硬要找的话,也许可以考虑下墨菲定律。

所以,从统计角度来看,尽管是追求共识之道,但统计也并不排斥特例的存在。喜欢找特例的,就找好了。但需要注意,我们可能很难通过这些老太太的、比较随机的“养生之道”,告诉人工智能研究者或相关领域的从业人员比较普适性的准则的。


@CAA混合智能专委会

版权声明

本文版权归CAA混合智能专委会,转载请自行联系



内容伙伴持续招募中,有意者联系微信号"前沿讲习班小助手(ID:must-tech)"

历史文章推荐:

  AI综述专栏 | 11页长文综述国内近三年模式分类研究现状(完整版附PDF)

   AI综述专栏 | 朱松纯教授浅谈人工智能:现状、任务、构架与统一(附PPT

【AIDL专栏】熊辉:《易经》如何指导我们做人工智能

【AIDL专栏】罗杰波: Computer Vision ++: The Next Step Towards Big AI

【AIDL专栏】姚力:基于神经生理信息的智能交互与应用

【AIDL专栏】操龙兵:非独立同分布学习

【AIDL专栏】基于图的RDF知识图谱数据管理[附PPT]

登录查看更多
0

相关内容

深度学习可解释性研究进展
专知会员服务
96+阅读 · 2020年6月26日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
174+阅读 · 2020年6月3日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
基于深度学习的行人重识别研究进展,自动化学报
专知会员服务
38+阅读 · 2019年12月5日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
55+阅读 · 2019年11月10日
可解释推荐:综述与新视角
专知会员服务
108+阅读 · 2019年10月13日
【深度学习】深度学习的问题究竟在哪?
产业智能官
4+阅读 · 2019年8月30日
我是怎么走上推荐系统这条(不归)路的……
全球人工智能
11+阅读 · 2019年4月9日
免费中文书籍-《神经网络与深度学习》中文版推荐
深度学习与NLP
20+阅读 · 2019年4月2日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
自然语言处理太难?按这个方式走,就是砍瓜切菜!
机器学习算法与Python学习
5+阅读 · 2018年8月10日
创业者和伪创业者的10大区别
创业财经汇
8+阅读 · 2018年6月5日
蔡志忠:我不同意三个臭皮匠顶一个诸葛亮
笔记侠
3+阅读 · 2017年11月30日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
深度学习可解释性研究进展
专知会员服务
96+阅读 · 2020年6月26日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
174+阅读 · 2020年6月3日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
基于深度学习的行人重识别研究进展,自动化学报
专知会员服务
38+阅读 · 2019年12月5日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
55+阅读 · 2019年11月10日
可解释推荐:综述与新视角
专知会员服务
108+阅读 · 2019年10月13日
相关资讯
【深度学习】深度学习的问题究竟在哪?
产业智能官
4+阅读 · 2019年8月30日
我是怎么走上推荐系统这条(不归)路的……
全球人工智能
11+阅读 · 2019年4月9日
免费中文书籍-《神经网络与深度学习》中文版推荐
深度学习与NLP
20+阅读 · 2019年4月2日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
自然语言处理太难?按这个方式走,就是砍瓜切菜!
机器学习算法与Python学习
5+阅读 · 2018年8月10日
创业者和伪创业者的10大区别
创业财经汇
8+阅读 · 2018年6月5日
蔡志忠:我不同意三个臭皮匠顶一个诸葛亮
笔记侠
3+阅读 · 2017年11月30日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
Top
微信扫码咨询专知VIP会员