万万没想到，枯燥的“机器学习”还可以这样学！

会员服务 ·

万万没想到，枯燥的“机器学习”还可以这样学！

2018 年 6 月 13 日 阿里技术

阿里妹导读：机器学习是人工智能的核心之一，涉及领域包括概率论、统计学等复杂学科。对于非专业人士来说，想要理解它着实不容易。

最近，蚂蚁AI平台部的栢柠，却在遛弯中找到解释“机器学习”的关键所在，以深入浅出的方式把“机器学习”解释得趣味盎然。下面一起来学下吧！

本文作者：蚂蚁金服AI平台部资深产品专家栢柠（朱百宁）

5月末的一天中午，蚂蚁AI平台部的几个PD同学吃完老娘舅，在Z空间楼下遛弯。

期间，某同学提到一则“小孩子因为鸡毛蒜皮的小事，想不开而做出傻事”的新闻。

当大家在纷纷感叹的时候，一位产品专家同学形象地说了一句——这个孩子的“模型过拟合、泛化能力太差”。

这个比喻确实一针见血、入木三分啊！众人均表示，以此悟性，该同学“晋升研究员，入主组织部”就指日可待了！

的确如此，娇生惯养（过拟合：overfitting）形成的脆弱心智（模型），在面临真实世界当中的种种不如意时，往往不能正确地处理（预测不准、泛化能力差），从而非常容易酿成悲剧。

在机器学习当中，在训练模型时，如果样本太单一或者特征选择不当，就会出现过拟合。即把训练样本当中的特殊情况，当成普遍情况。这样，在面对新的样本时，就无法正确处理。

我们常说的应试教育和素质教育，也有泛化能力的巨大差异。

应试教育整天让学生做卷子、刷题库，训练出来模型过拟合、泛化能力差，就会出现“高分低能”的情况。而素质教育则注重能力锻炼、比较多元化，训练出来的模型泛化能力强，学生们将来在生活和工作方面都不会有太大的问题。

其实，如果你把人的成长与机器学习进行仔细比对，你就会发现，两者还有更多异曲同工之妙。

一个婴儿呱呱坠地，他天生就会具备一些能力（自带算法库），比如心跳、呼吸、哭、笑、恐惧等等。

这些能力，都是神奇的进化和伟大的基因带给我们的。否则，让我们重新掌握一遍这些技能那就太费劲了。

当然，为了正常的生活，仅仅有这些自带的初级算法和模型是还不够，你还要不断地掌握一些新的技能（自研算法）。

比如，吃饭、走路、说话等等。

要掌握这些技能，需要父母日复一日，年复一年，不辞辛苦地反复教我们，训练我们咿呀学语、蹒跚学步。

这就像在机器学习中，需要足够多的样本（成千上万），耗费很多计算资源，经过数分钟甚至数小时、数天的持续训练，才能获得一个模型。

其实，在人的大脑当中，不光有常年累月不断训练而掌握的技能（模型），还会有一些强规则。

这些规则，有些是父母教给我们的，有的是社会道德规范、法律法规形成的。

比如，父母会对小孩子说：“不要随便吃陌生人给的食物”、“过马路时要左右看”。

在生活当中，要尊老爱幼、礼尚往来，要遵纪守法、践行社会主义核心价值观等等。

对于这些规则，我们记住，以后照做就行了。

由此可见，我们的大脑就像一个决策中心或者决策中枢，其中包含了无数规则和模型

。每次决策，就是组合地使用这些规则和模型。

在实际的机器学习应用场景中，在各个业务线当中，也有各种各样类似的“决策中心”，比如大安全的UCT、微贷的AGDS以及DecisionX这样的“通用决策中心”。

这个决策中心，就包含了成百上千复杂的规则（或者称为“策略”）以及训练得到的模型。对于某一个，用策略and/or模型的组合来进行判断和决策。

而且，往往是先判断策略，如果不满足某个策略，那么就直接给出决策。

随着年龄的增长，除了吃喝拉撒这些基本技能，我们的决策中心还需要掌握更多的技能，比如语文、数学、音乐、舞蹈、体育等等。

在这方面，经常会看到某些孩子“天赋异禀”，即系统自带超牛的算法——他的爸妈给他遗传了更好的算法。

不过，我们普通人也不要气馁，我们可以付出更多努力（大样本），不断刻意、刻苦地训练（模型不断retrain和演进），也能取得好的成绩。

人生是场马拉松，模型训练也是如此。

相比之下，在这场马拉松当中，在人生的不同年龄阶段，我们所使用的学习方法也不尽相同。

在小时候，我们大多数采用的是有监督的机器学习。

比如，父母会拿着各种各样的水果教我们：“这是苹果，这是桔子”。

动画片和故事书经常告诉我们：哪些是好人，哪些是坏人。

于是，我们最常用的就是二分类算法：大/小、长/短、是/否、好/坏。

而长大以后，我们遇到更多的是无监督或者半监督的学习，很多事物并不会带着明确的是非对错的标签。

因此，我们会用一些聚类算法。跟遇到的人经过一段时间熟悉后，才会把他们分为“讲义气”、“酒量大”、“会修电脑”、“爱吃老娘舅”等各个类别。

尽管学习的方法各异，但大道至简、万物相同。

我们知道，一个人在某个方面有所成就，就很容易在其他领域表现优异（迁移学习） 。

比如，爱因斯坦不仅是杰出的科学家，他还精通小提琴。一个C语言高手，很快就能变身Java大拿。

当然，细究起来，人脑与机器学习也有不少差异。

比如，给小孩玩几个玩具汽车、看几张汽车图片，他就会能认识许多造型各异、图片风格迥异的汽车。

相比之下，要让机器达到这样看似简单的能力，则需要需要数万、数百万的样本来训练。

几年来，有关AutoML的一个研究方向，就是解决如何用少量的样本完成模型的训练。

此外，我们发现，人类“下意识、一瞬间”能做的事情，对于人工智能来说却很难。

比如，认识物体和人像（图像识别能力）、喜怒哀乐的情绪以及行走奔跑的能力。究其原因，还是归功于伟大的进化——我们的这些模型，是经历了亿万年的进化，经过了无数次地模型演进才获得的。

反过来说，人类花很长时间才能做完的事情，对电脑来说却易如反掌。例如，在短时间内，对100万个数字求和，或者把圆周率的精确到小数点后100万位。

然而，要找到人脑和人工智能的能力差异背后的真实原因，人类还有很长一段路要走。

尽管现在科技日新月异，尽管人们已经发明出了“深度神经网络”来实现人工智能（深度学习），让机器认识猫、下围棋，但人类对自己大脑的运作机制仍然知之甚少。

可以说，人们用自己那神奇的、原理尚不清楚（不可解释）的大脑，造出了种种机理尚不清楚（不可解释）的模型。

也就是说，尽管你用深度学习训练出了一个可以识别猫的模型，但这个模型没有可解释性。即，你无法说出这个你训练出的这个牛逼的模型，究竟是靠哪些特征、哪些原则来识别出猫的。

人的心智，就是由无数个如此讳莫如深的模型以及清晰明了的规则组成。

人的一生，就是不断迭代旧算法、retrain旧模型，研发新算法、训练新模型的过程。

所谓“读万卷书、行万里路、与万人谈”，这就是让我们掌握更多的算法，拥有更全面的样本，从而训练出更多样的模型。

不过，可惜的是，不像“长相、哭、笑”这类特征或技能，人类的大部分模型并不能通过基因来遗传给我们的孩子。

比如，一个“精通Java/Python，擅debug、调core”的高级技术专家（P8），与一个“深谙用户体验和人性本质”的资深产品经理（P6）合体之后，繁衍的后代并不能天生就会写码或画线框图。

也就是说，你穷尽一生训练出来的各色优雅的模型，有朝一日都会下线（模型下线）。

但是，并不要因此感到悲伤，人生本来就是一个体验美好和精彩的过程。

人常说，活到老学到老，这样的人生才是完整的，才是值得期待的。

总而言之，蚂蚁金服AI平台部汇聚了机器学习、大数据智能等领域的来自五湖四海、国内国外的众多精英，部门的产品支持了蚂蚁金服多个核心产品和业务。

这个团队不光有才、有料，还有情、有义、有趣！

现在，我们亟需以下岗位的同学加盟：

大数据智能-高级产品专家：

https://job.alibaba.com/zhaopin/position_detail.htm?positionId=48713

AI/机器学习-高级产品专家：

https://job.alibaba.com/zhaopin/position_detail.htm?positionId=24972

金融智能平台-产品运营专家：

https://job.alibaba.com/zhaopin/position_detail.htm?positionId=49973

有意者,请速投简历（亦可直接发送至 dengtao.ldt@antfin.com）。

“AI+金融”，你不容错过！

本文来源：自传播实验室

你可能还喜欢

点击下方图片即可阅读

工程狮爸爸如何准备儿童节礼物？

程序员吃的是青春饭？本质上取决于......

为什么阿里工程师纷纷在内网晒代码？

关注「阿里技术」

把握前沿技术脉搏

登录查看更多

相关内容

泛化能力

关注 1

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

专知会员服务

146+阅读 · 2020年7月3日

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

专知会员服务

269+阅读 · 2020年6月10日

【经典】《上海交通大学生存手册》，一本让你在大学活出精彩的秘籍

专知会员服务

200+阅读 · 2020年4月18日

【干货书】流畅Python，766页pdf，中英文版

专知会员服务

226+阅读 · 2020年3月22日

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

Andriy又一力作新书「机器学习工程」，177页pdf带你实战机器学习工程项目

专知会员服务

127+阅读 · 2020年1月15日

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

【机器学习课程】Google机器学习速成课程

专知会员服务

168+阅读 · 2019年12月2日

【MLA 2019】在微软小冰做好玩儿的研究，微软小冰首席科学家宋睿华

专知会员服务

22+阅读 · 2019年11月6日

吴恩达新书《Machine Learning Yearning》完整中文版

专知会员服务

147+阅读 · 2019年10月27日

掌握“机器学习”，这可能是比啃西瓜书更高效的方法

计算机视觉life

10+阅读 · 2019年10月23日

520 页机器学习笔记！图文并茂可能更适合你

大数据技术

19+阅读 · 2019年10月8日

清华大学两名博士生被开除：你不吃学习的苦，就要吃生活的苦

机器学习算法与Python学习

25+阅读 · 2019年9月16日

备战AI求职季 | 100道机器学习面试题（上）

七月在线实验室

9+阅读 · 2019年3月16日

机器学习：从入门到晋级

云栖社区

4+阅读 · 2018年11月21日

阿里资深AI工程师教你逐个击破机器学习核心算法

AI100

5+阅读 · 2018年4月26日

关于机器学习，你需要知道的三件事！

云栖社区

3+阅读 · 2018年3月3日

“数据折叠”：今天，那些人工智能背后“标数据的人”正在回家 | 甲子光年

李开复

3+阅读 · 2018年2月22日

入坑机器学习，十个知识点你不得不知

人工智能头条

7+阅读 · 2017年9月15日

机器学习没有想象中的那么难

待字闺中

4+阅读 · 2017年9月14日

Towards Making the Most of BERT in Neural Machine Translation

Arxiv

5+阅读 · 2020年3月26日

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Towards Understanding Acceleration Tradeoff between Momentum and Asynchrony in Nonconvex Stochastic Optimization

Arxiv

3+阅读 · 2018年10月1日

Geometry-Based Multiple Camera Head Detection in Dense Crowds

Arxiv

3+阅读 · 2018年8月2日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

Fine-tuning CNN Image Retrieval with No Human Annotation

Arxiv

4+阅读 · 2018年7月10日

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Learning Unsupervised Learning Rules

Arxiv

7+阅读 · 2018年5月23日

Representation Learning for Visual-Relational Knowledge Graphs

Arxiv

9+阅读 · 2018年3月31日

VIP会员