学习人工智能 100 天后，我得出 5 个结论

2019 年 9 月 12 日 InfoQ

作者丨Jamie Beach

译者丨无明

策划丨万佳

2019 年 1 月底，我突然意识到，自己对人工智能了解非常有限。目前，人工智能对我们的影响越来越大。它保护我们的邮箱免受垃圾邮件的干扰，提供 Alexa 天气信息更新，为亚马逊消费者推荐更精准的商品或者为 Netflix 用户提供观影建议。每次当我们打开 Twitter 或 Facebook 都是一次人类与人工智能的较量，人工智能比我们更了解我们自己。而我——一个所谓的技术专家，对人工智能的了解竟如此有限。

《连线》杂志创始人 Kevin Kelly（凯文·凯利）在播客上参加一个叫“未来思想家”的节目，他在节目中讨论了 AI 相关的话题。他强调，一切才刚开始，如果有人愿意花点时间稍微深入学习一下人工智能和机器学习，他们就会发现，真正了解人工智能的人并不多。那天下班回家后，我就开始了为期 100 天的人工智能“深度潜水”。

我把所有东西都列在了 Trello 上。虽然时间不是很充裕，但我还是在 100 天内完成了近 200 小时的学习。我看了 9 本书，上了 2 门 Coursera 课程（现在开始上第三门），听了很多播客节目，还尽可能多地学习其他教程。

Trello 链接：

https://trello.com/b/g1cS5K0O/100-days-of-ai

1人工智能不是新事物，但有新突破

“人工智能”一词并非来自科幻小说。1956 年，在达特茅斯学院举办的一个夏季研讨会上，一群聪明人聚在一起讨论如何让机器具备思考的能力。这次聚会的目的就是要提出这个概念。虽然他们没有留下会思考的机器，但是他们的一些想法和技术却为现代人工智能奠定了基础。

研讨会之后，人们对人工智能的不同子领域产生了浓厚兴趣。神经网络现在看起来似乎很有前途，但在当时却一片空白，大多数研究最终放弃了它。这一时期被称为“人工智能的冬天”，并持续几十年。但近年来，随着计算能力和可用数据呈指数级增长，再加上深度学习的突破，极大提高了机器学习的效率，以至于连吴恩达都称人工智能是“新电力”。

2 人工智能相当于机器学习，但不是终结者

终结者，超智能文化的缩影

人工通用智能（AGI）是一种可以像人类一样思考的机器。比如终结者，或者 HAL 9000 ，或者《机械姬》里的机器人。这么说来，超智能就是超越了人类思考能力的机器。但目前并不存在这些东西。到目前为止，AGI 仍然是一种幻想，是遥不可及的未来。但这并不意味着没有人在做这件事情，也不意味着像 Max Tegmark 或 Ray Kurzweil 这些聪明人不会谈论和期待它们的出现（它们会的，而且很快）。但目前 AI 的主要形式几乎就是机器学习——人工智能的一个子领域。

机器学习基本上是这样的：

第一步：把问题变成预测问题。换句话说，就是给定输入参数（特征），然后预测结果。

第二步：定义算法或系统，做出决策。这类算法或系统有很多，从线性回归到神经网络、深度学习、支持向量机、递归神经网络、卷积神经网络、生成对抗网络等等。每种算法都是针对一类特殊的预测问题而设计的。要预测一所房子的成本，使用线性回归模型就足够了，预测剧本可以使用递归神经网络（RNN），预测人脸图像可以使用生成对抗网络（GAN）。

第三步：获取大量的训练数据，越多越好。关于房价，可以获取包含房子 (标签) 特征和实际价格的数据。对字符识别，可以获取大量包含字符的图片，并对其进行标记。

第四步：训练模型。提供训练数据，计算错误，调整并重复，直到错误最小化。在这里，梯度下降和反向传播是两个重要的概念。

假设找到了最小误差，模型就准备好了——为它提供新特征，它就可以预测结果。结果往往非常准确，通常比人类更准确。

3 一切都是数学

来自吴恩达机器学习课程的截图

在开始 100 天的学习前，我就知道机器学习与数学有关，只是不知道关系有多大。对任何一个入门者来说，了解微积分和代数是非常有帮助的。幸运的是，就算不是数学专业的学生也能掌握这些知识，而且机器学习的全民化进程正在不断推进中。

重要的机器学习框架包括谷歌的 Tensorflow、微软的 ML.NET 和 PyTorch，它们为程序员添加了一个抽象层，甚至是额外的抽象层，比如位于 Tensorflow 之上的 Keras。

我们还可以将机器学习模型作为一种服务，或者通过创建自动化工具（如 AutoML 和 Auto-Keras）让机器学习变得更容易。

4 偏见是个大问题

机器学习模型中的偏见是个大问题。Amy Webb 的伟大著作《九巨头》(The Big Nine) 有很多章节都提到了这个问题。测试数据的全面性和多样性是非常重要的，但它们也是文明目前最缺的东西。

从 1956 年以来出现的“AI 之父”

Amy 将 ImageNet 语料库作为例子。这个语料库包含 1400 万张带标签的图片，其中一半以上是在美国创建的。当然，ImageNet 语料库并不是唯一一个包含偏见的数据集。

如果一个数据集大部分都是女性“护士”或男性“CEO”，会发生什么？如果一个皮肤癌图像数据集只包含浅肤色样本，会发生什么？如果这些模型真正进入到我们的日常生活，会产生严重的后果。随着机器学习模型全民化进程的继续，我们使用了很多预先构建的模型，但对用来训练这些模型的数据一无所知，所以偏见会持续存在，并且可能会放大整个社会的偏见。

研究人员很清楚这个问题的存在，很多大公司都有自己的指导原则，用于减少向工程文化中引入偏见。没有人故意要向模型中引入偏见，但即使是出于好意，引入偏见也是不可避免的。

因此，了解机器学习原理以及它们如何影响我们——比如如何帮助 Twitter 和 Facebook 向我们推荐那些搅乱我们神经细胞的内容，培养我们对世界的认知，这一点非常重要。

5 机遇

Gartner 公司在 2018 年 4 月发布的全球 AI 驱动商业价值预测报告（单位为十亿美元)

Kevin Kelly（凯文·凯利）是对的。我们还处在人工智能和机器学习的早期阶段。是的，有很多应用已经渗透到我们的生活中，但在这个领域仍然有很多机会。

机器学习能够、已经、也将彻底改变一切。在过去 100 天里，我读了很多书，Marshall Brian 的《Manna》就是其中之一。它描述了一个近乎乌托邦的世界，在这个世界里，机器和自动化已经接管了所有工作，人类可以过上自己想要的生活。不需要 AGI，只需要机器学习。但这样的世界离我们还有多远？

Instagram 名人和 Youtube 视频博主的内容甚至可以完全由 GAN 和 RNN 生成。一种由机器学习驱动的娱乐新模式，从电影脚本到逼真的 3D 模型，一切都是由机器学习模型生成的。你甚至都不要再去面试工作了，因为可以通过机器学习将你与空缺职位进行匹配，所以又何必费事去面试呢？从癌症治疗到餐馆晚餐，再到实时生成音乐，一切都可以实现高度个性化。自动驾驶出租车、基于 RNN 的文案服务、自动化服务协议、自动化法庭裁决、个性化生活改善策略、无人机送货、基于人工智能的投资，这些例子数不胜数。它们都是实实在在的，而且几乎都是目前可以实现的。

人工智能和机器学习也可能影响到人类文明，帮助人类降低风险，比如气候变化、战争、小行星撞击和疾病。

世界即将开始发生变化。我们可能会注意到，也可能不会。人工智能将推动这一切，它已经开始向我们逼近。

正如 Kevin Kelly（凯文·凯利）所说的：