【人工智能】技术讲解概率机器学习——深度学习革命之后AI道路

2018 年 8 月 28 日 产业智能官

机器之心整理

参与：机器之心编辑部

概率理论为理解学习，建立合理的智能系统提供了数学框架。在此演讲中，Uber 首席科学家、剑桥大学教授 Zoubin Ghahramani 回顾了概率学 AI 领域的基础，然后重点介绍了该领域的研究前沿，涉及到了贝叶斯深度学习、概率编程、贝叶斯优化、数据科学中的 AI 等主题。他认为，在深度学习革命之后，下一个前进的方向会是概率机器学习。

Zoubin Ghahramani 是英国皇家学会会士，剑桥大学信息工程系教授，Uber 首席科学家，英国国家数据科学研究所图灵研究所剑桥主任。Zoubin Ghahramani 教授曾工作或学习于宾夕法尼亚大学、MIT、多伦多大学、伦敦大学学院盖茨比组、卡耐基梅隆大学。他的研究聚焦于机器学习/人工智能概率方法，在这些主题上已经发表了超过 250 篇论文。他曾是 Geometric Intelligence（被 Uber 收购，成为了 Uber AI Labs）的联合创始人，指导众多人工智能与机器学习公司。2015 年，因其对机器学习的贡献，被选为英国皇家学会会士。

强化学习下一步：OpenAI伯克利让AI纯凭“好奇心”学习！

来源：新智元

新智元报道

来源：Github

编译：大明

【新智元导读】强化学习模型往往依赖对外部奖励机制的精心设计，在模型训练成本控制和可扩展性上都存在局限。OpenAI的研究人员提出一种新的强化学习模型训练方式，以agent的“好奇心”作为内在奖励函数，在训练中无需外部奖励，泛化性好，经过54种环境测试，效果拔群。

强化学习模型在很大程度上依赖于对agent的外在环境奖励的精心设计。然而，用手工设计的密集奖励来对每个环境进行标记的方式是不可扩展的，这就需要开发agent所固有的奖励函数。好奇心就是一种内在的奖励函数，它使用预测误差作为奖励信号。

在本文中，我们首次在54个标准基准测试环境（包括一系列Atari游戏）中进行了纯粹基于好奇心驱动学习的大规模研究，不设置任何外在奖励。得到的结果令人惊喜，而且表明内在的好奇心目标奖励与许多游戏环境中手工设计的外在奖励机制之间存在高度的一致性。

强化学习“好奇心”模型：训练无需外部奖励，全靠自己

我们研究了使用不同的特征空间来计算预测误差的效果，并表明，随机特征对于许多流行的强化学习游戏的基准测试来说已经足够，但是已学习过的特征看起来似乎具备更高的泛化性。（比如可以迁移至《超级马里奥兄弟》的新关卡中）。

我们对agent进行了大规模的实证研究，这些agent纯粹通过各种模拟环境中的内在奖励来驱动，这还是业界首次。特别是，我们选择基于动力学的内在奖励的好奇心模型。因为该模型具有很强的可扩展性和可并行性，因此非常适合大规模实验使用。

图1：本文研究中使用的54种环境的快照截图集合。我们的研究表明，agent能够只凭借好奇心，在没有外部奖励或结束信号的情况下取得进步。

相关视频、结果、代码和模型，见https://pathak22.github.io/large-scale-curiosity

我们的思路是，将内在奖励表示为预测agent在当前状态下的行为后果时出现的错误，即agent学习的前向动态的预测误差。我们彻底调查了54种环境中基于动力学的好奇心：这些场景包括视频游戏、物理引擎模拟和虚拟3D导航任务等，如图1所示。

为了更好地理解好奇心驱动的学习，我们进一步研究了决定其表现的关键因素。对高维原始观察空间（如图像）中的未来状态进行预测是一个极具挑战性的问题，对辅助特征空间中的动态进行学习可以改善结果。

但是，如何选择这样一个嵌入空间是一个关键、未解决的研究问题。通过对系统的简化，我们研究了用不同的方法对agent观察到的信息进行编码的作用，使得agent可以完全靠自身的好奇心机制做出良好的表现。

上图是8种选定的Atari游戏和《超级马里奥兄弟》的特征学习方法的比较。图中的评估曲线显示agent纯粹通过好奇心训练，在没有外部奖励和关卡结束信号的情况下，获得的平均奖励分数（包括标准误差）。

我们看到，纯粹以好奇心驱动的agent能够在这些环境中收集奖励，而无需在训练中使用任何外部奖励。

图3：左：采用不同批规模的RF训练方法的比较，训练没有使用外在奖励。中：Juggling（Roboschool）环境中的球弹跳次数。右：多人游戏Pong环境下的平均关卡长度

为了确保动态的稳定在线训练，我们认为所需的嵌入空间应该：（1）在维度方面紧凑，（2）能够保存观测到的足够信息，（3）是基于观测信息的固定函数。

图4：《超级马里奥兄弟》游戏环境下的泛化实验。左图所示为1-1关到1-2关的迁移结果，右图为1-1关到1-3关的迁移结果。下方为源环境到目标环境的映射。所有agent都的训练过程中都没有外在奖励。

图5：在使用终端外部奖励+好奇心奖励进行组合训练时，Unity环境下的平均外在奖励。注意，只通过外部奖励进行训练的曲线值始终为零（表现为图中最底部的直线）

我们的研究表明，通过随机网络对观察结果进行编码是一种简单有效的技术，可以用于在许多流行的强化学习基准测试中建立好奇心模型。这可能表明，许多流行的强化学习视频游戏测试并不像通常认为的那样，在视觉上有那么高的复杂度。

有趣的是，虽然随机特征对于许多流行的强化学习游戏的基准测试来说已经足够了，但是已学习过的特征看起来似乎具备更高的可推广性（比如推广至《超级马里奥兄弟》的新关卡中）。

上图给出了所有Atari游戏环境下的表现结果。我们发现，用像素训练的好奇心模型在任何环境中都表现不好，并且VAE特征的表现也不比随机特征及逆动力学特征更好，甚至有时还更差。

此外，在55％的Atari游戏中，逆动态训练特征比随机特征的表现更好。分析表明，对好奇心进行建模的随机特征是一个简单而强大的基线标准，并且可能在一半的Atari游戏场景中表现良好。

小结

（1）我们对各种环境下的好奇心驱动模型进行了大规模的研究，这些场景包括：Atari游戏集、《超级马里奥兄弟》游戏、Unity中的虚拟3D导航、Roboschool 环境等。

（2）我们广泛研究了用于学习基于动力学的好奇心的不同特征空间，包括随机特征，像素，反向动力学和变分自动编码器，并评估这些空间在不可视环境下的可推广性。

（3）局限性：我们观察到，如果agent本身就是环境中随机性的来源，它可以在未取得任何实际进展的情况下进行自我奖励。我们在3D导航任务中凭经验证明了这一局限性，在这类任务中，agent能够控制环境的各个不同部分。

未来方向

我们提出了一种简单且可扩展的方法，可以在不同的环境中学习非平凡的行为，而无需任何奖励函数或结束信号。本文的一个令人惊讶的发现是随机特征表现不错，但已学习的特征似乎在可泛化性上更胜一筹。我们认为一旦环境足够复杂，对特征的学习将变得更加重要，不过我们决定将这个问题留给未来。

我们更高的目标是，能够利用许多未标记的（即没有事先设计的奖励函数）环境来改善面向感兴趣的任务的性能。有鉴于此，在具备通用奖励函数的环境中展示出很好的表现只是我们研究的第一步，未来的成果可能包括实现从未标记环境到标记环境的迁移。

论文地址：

https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf

Github相关资源：

https://github.com/openai/large-scale-curiosity

如今人工智能与机器学习的发展令人振奋。这几年，我们在游戏中取得了各种突破，例如玩 Atari 游戏、围棋、扑克。更重要的是，如今这个时代对应用机器学习与人工智能非常感兴趣，例如语音识别、计算机视觉、推荐系统、自动驾驶等。

当我们思考人工智能时，会想到我们当前处于什么状态？离我们想要的人工智能还有多远？我们是否有解决未来挑战的理论基础？为了解决赋有挑战性的 AI 任务，我们需要关于感知、学习、推理与决策的理论。这也是我们建立 AI 系统的方式。

深度学习的火热与缺陷

如今深度学习是最为最为火热的学习方法。很多人，特别是刚进入 AI 领域不久的人会认为深度学习可以解决所有问题，是建立智能系统的有力工具。所以，什么是深度学习系统？

深度学习就是神经网络，而神经网络是带有许多参数的可调非线性函数。上图中，参数θ是神经网络的权重。神经网络是特别有趣的函数，因为输入 x 和参数θ都是非线性的。现在神经网络所做的是，通过一个函数组合从输入 x 到输出 y 表示这一函数，也就是神经网络中的层。总结来说，神经网络的核心是非线性函数+基础统计+基础优化。

深度学习可以说是神经网络的重新包装。现代深度学习系统非常类似于 80 、90 年代流行的神经网络模型，也有一些重要的变化：

1. 新的架构与算法上的创新（例如多层网络、ReLU、dropput、LSTM 等）；

2. 非常重要的是我们当前有非常大的数据集；

3. 非常大规模的计算资源（GPU、云）；

4. 更好的软件工具（Theano、Torch、TensorFlow），更方便的建立神经网络；

5. 还有产业越来越大的投资也媒体关注；

以上使得越来越多的人进入到 AI 领域，发展也越来越快。因此，深度学习领域可以说去的了非常大的发展，也对人工智能非常重要。

但深度学习系统也有缺陷。虽然这些系统在许多基准任务上有非常好的表现，但它们也有缺陷：

1. 需要大量数据，例如总需要数百万的样本（data hungry）；

2. 需要大量计算资源来训练以及部署深度学习系统；

3. 表征不确定性的能力极差；

4. 融合先验知识与符号表征对深度学习非常重要，这也是许多人在研究的；

5. 易受对抗样本的影响；

6. 过于繁琐的优化：非凸的，找到最好的架构选择，学习流程，初始化等；

7. 深度学习是难以解释的黑箱，缺乏透明度，难以令人信任，使得深度学习难以部署到一些非常重要的任务上。

这些事深度学习的挑战，也是研究员们想要战胜的难题。

模型的概率视角

尽管深度学习非常流行，但接下来我们需要考虑的是机器学习下一步的发展是什么。因此，我们需要将机器学习视为概率建模问题。在机器学习中，模型表述了从某个系统中能观察到的所有数据，也就是说模型不仅可以描述所有我们收集到的某种数据，同时它还能描述那些没收集到的同类数据。

概率是推理不确定性的数学，正如微积分是推理变化率的数学。概率语言模型能够捕捉复杂的推理，发现未知，无需监督即可揭开数据的结构。并且，概率可使得专家通过先验信念的形式把知识注入到 AI 系统。

如果当我们对世界的某种数据建模时，我们需要预测那些没观察到的数据以及它们之间的不确定性，因此我们可以使用数学中概率论描述这种不确定性并完成「模型」的构建。

在使用概率论描述模型中的不确定性后，贝叶斯概率能允许我们推断未知量，并调整模型以从数据中学习。Zoubin Ghahramani FRS 表示机器学习中的很多问题都能归结到这一个贝叶斯框架内，或者至少需要归结到这一框架。

为了进一步解释贝叶斯推断，Zoubin 进一步解释了贝叶斯法则。简单而言，贝叶斯法则可以描述为「执果索因」，即知道某个事件发生了后，求得该事件最可能是在什么情况下发生的。在 ML 中，贝叶斯法则会告诉我们如何更新对未知世界或假设（hypothesis）的知识与信念，且更新假设或信念的信息从我们已知的观察或数据（data）中获取。

如下所示若需要在给定数据的条件下判断假设存在的可能性，我们只需要根据该贝叶斯法则就能求出。

在贝叶斯法法则中，总体数据是未知的，也就是说我们需要使用概率分布表征这种不确定性。在观察到数据之前，我们有先验概率 P(hypothesis)，它表示我们事先认为任意一个假设及其所出现的概率。此外，对于任意一个假设，我们需要评估根据它能观察到数据的概率，即 P(data|hypothesis)。这与似然度非常相似，当我们乘上这两个概率项，并通过除上所有可能的假设来做归一化，我们就可以得到后验概率 P(hypothesis|data)。

这是一种通用的法则来根据数据更新我们对假设的信念，这一个法则同样告诉我们该如何执行学习过程。学习其实就是将先验知识迁移到后验知识，如果我们获得更多的数据，那么仅仅只是反复对当前的状态应用这一个法则以更新获得新的后验知识。

若将基本贝叶斯法则应用到机器学习中，我们就可以得到以下三个非常基础的方程，即学习、预测和模型对比。此外，值得注意的是，贝叶斯法则并不是最基本的公理，它是由由概率的加法原则与乘法原则组合而成。

其中学习即给定数据与模型预测最可能的参数θ，这样在确定了参数θ后就能确定整个模型，学习后的系统也就确定了。为了计算后验概率 P(θ|D, m)，根据贝叶斯法则需要使用θ的先验概率 P(θ|m) 和似然度 P(D|θ, m)。预测即在给定数据 D 和模型 m 的情况下预测出现样本 x 的概率，它可以用一个积分或数学期望表示。

你可能会想，当前深度学习如此成功，基本上任何复杂任务都只需要套入这种端到端的方法就能取得不错的效果，那么我们还需要概率与贝叶斯法则吗？还是说贝叶斯法则只是 18 世纪的老旧研究而跟不上当前 21 世纪的深度方法？Zoubin 非常推崇为任务与模型引入概率，它展示了以下一些原因来说明为什么概率对于机器学习非常重要。

首先我们希望系统能校准模型与预测不确定性，因为我们希望系统明确地知道它到底不知道什么。例如在自动驾驶中，当系统遇到了和以前都不一样或者不合理的场景，我们希望系统能给出回答表示它不知道怎么处理，而不是如同当前深度模型那样给出一个错误的回答。此外，概率框架同样允许我们实现非常优雅的模型复杂度控制或者结构搜索。这表明基于贝叶斯概率，我们都不再需要正则化或其它防止过拟合的方法，因为它能自动调整和控制模型复杂度。

对于 AI 来说，我们希望构建的系统能执行合理的决策。这表明我们希望系统能通过连贯的方式根据数据更新信念，并且根据效用论最大化效用来做出合理与理性的决策。同样，我们需要将先验知识嵌入到学习系统中，并且随着我们获得越来越多的数据，先验知识应该以连续和鲁棒的方式得到更新。

此外，对于 AI 系统来说非常重要的就是基于小数据集进行训练与推断。在实际生活中，很多任务都只有非常少量的数据，深度学习明显并不能解决这样的问题，因为模型复杂度过高或过低分别会导致过拟合或性能不佳等问题。贝叶斯概率能利用先验知识，从而只需要更少的数据就能推断出合理的决策。

下面 Zoubin 具体介绍了一些将概率引入到 AI 所需要的概率论基础，首先即如何表征 AI 系统中的信念。我们希望以数值的方式表示智能体某个信念的强度，也希望能使用某些数学运算对这些信念做一些操作。

若使用 b(x) 表征命题 x 中的信念强度，那么它的取值应该在 0 到 1 之间，且只有在系统完全确信 x 会发生或完全不确信才能取到 1 和 0。此外，b(x|y) 表示在给定 y 可能会出现的信念下，x 会发生的信念强度。早在 1946 年，Cox Axioms 就写下了一些如何表示信念的定理。如上所示信念的强度应该由一个实数表示，信念应该与常识具有定性的一致性等等。此外，信念函数还应该满足概率定理，包括概率加法、乘法和贝叶斯法则。

Zoubin 表示信念函数并不是表示传统概率论中重复实验与频率等的不确定性，它仅仅表示信念的强度，这对于 AI 系统有非常重要的作用。为了说明这种重要性，他进一步从决策论与博弈论中引入一个观点以说明如何根据信念做更好的决策，即 Dutch Book 定理。

根据 Zoubin 在 UberAI 研究院的经历，他发现很多学习与智能过程都依赖于对不确定性的概率表示，例如车主供给与乘客需求关系的预测、对交通和城市的建模以及自动驾驶等。尽管 Uber 在处理这些问题时同样需要使用深度学习拟合适当的函数，但概率是构建能执行理性决策的智能体所必需的。

介绍了概率在机器学习中的重要性后，Zoubin 在后面重点讨论了他在这一领域的研究方向与成果。以下展示了他主要涉及的领域，且都以自动化机器学习为中心。之所以在机器学习前加上「自动化」，是应为他认为目前的机器学习并不是那么合理，它还能在很多地方变得更加高效与自动化。

贝叶斯深度学习

在这一个视频中，Zoubin 并不会介绍全部领域，他只会重点讨论三个方向，即贝叶斯深度学习、概率编程和自动化统计学。首先对于贝叶斯深度学习，他表示前面很多地方都将深度学习与贝叶斯统计立在对立面，但其实它们并不是对立的。深度学习旨在构建不同类型的模型，而贝叶斯推断旨在关注学习的方法，它们是可以相互结合的。

那么到底深度学习中的贝叶斯指的是什么呢？如果我们重新思考深度神经网络，一般的方法会根据损失函数更新模型的权重和偏置项，这也就表示参数上的不确定性。但我们应该同时解决结构上的不确定性，例如神经网络层级的结构或层级数等。目前结构上的不确定性比较难解决，但参数上的不确定性要好解决地多。

如下给定一个神经网络，其中 X、y 和θ分别为输入、输出和模型参数。如果从贝叶斯的角度观察该神经网络，那么先验概率 P(θ|α) 就是说在没有观察到数据之前，给定某些超参数α下神经网络参数θ可能是什么。后验概率 P(θ|α, D) 则表示在观察到数据后，给定某些超参数α下神经网络参数θ的分布应该是什么样的。

有趣的是，Radford Neal 在 1994 年表示如果从贝叶斯的角度观察带有单个隐藏层的神经网络，那么当该隐藏层的神经元数量可以无限增长，那么模型就会收敛到高斯过程，所有权重都会服从高斯分布。当时很多研究者对这一过程非常感兴趣，但是由于神经网络有非常多的局部极小值且很难优化，因此很多研究者转而关注能优雅使用凸优化的支持向量机。同时，由于单个隐藏层需要无限的神经元才能近似高斯过程，那么我们为什么不直接使用高斯过程呢，这也是当时很多研究者的心声。

到了现在，Alexander 等研究者在 ICLR 2018 的论文中重新探讨了高斯过程与深度神经网络之间的关系。他们表示在广义条件下，随着我们神经网络架构越来越宽，隐含的随机函数会收敛为高斯过程，这也就是将 Neal 在 1994 年的研究成果扩展到了深度神经网络。研究者们严格证明了多层有限全连接网络最终能收敛到高斯过程，其中隐藏层的数量可以是定值，而隐藏层的单元数需要根据层级的增长严格地以不同的增长率增加。

如下 Zoubin 表示贝叶斯深度学习可以以多种方式实现，它们的关键计算问题是在参数上做贝叶斯推断，并在给定神经网络数据的情况下构建所有参数的概率分布。

如上早期的贝叶斯深度学习主要在于很多研究者并不希望研究神经网络。而自 2011 年以后，很多研究者重新开始关注神经网络中的推断过程，并尝试令贝叶斯推断更快与更简洁。在上图中，神经网络尝试在给定数据的情况下拟合一些参数，而当没有数据点的时候，神经网络那种点估计会出现很大的误差，因此贝叶斯神经网络一般在这种情况下能做得更好。

当然，近来也有将深度学习结合高斯过程的研究，例如 17 年 Bradshaw 等人提出的 GPDNN，它结合了深度神经网络与高斯过程良好的属性，并对于对抗样本有非常好的属性。对于 GPDNN 来说，当我们测试对抗样本时，它输出的最高熵类别概率对应于「don't know」。该网络知道什么时候给定的样本是系统无法判断的，因此 GPDNN 是一种更好的深度架构来表示未见过的潜在数据。

概率编程与自动化统计学

Zoubin 重点展示的第二个方向是概率编程，概率编程让用户可以将生成概率模型指定为程序（program），然后将这些模型「编译（compile）」为推理过程。概率模型本质上也是组合式的，而之前的大部分工作都集中在通过组合随机变量来构建丰富的概率程序上。

首先对于传统模型而言，概率性模型开发与推断算法的推导式非常耗时与容易出错的，因此我们可以借助概率编程语言将概率模型表述为能生成数据的计算机程序。例如概率编程语言 Edward，它构建于两种组合表示的基础上，即随机变量和推理。Edward 可以集成到 TensorFlow，它让我们轻松使用从点估计到变分推理和 MCMC 等各种可组合的推理方法来拟合相同的模型。

Zoubin 随后展示了用概率编程语言所写的隐马尔可夫模型，它只需要不到 10 行的代码就能完成整个模型。他认为概率编程最大的优势是对科学建模的变革，而 Uber 构建的概率编程语言 Pyro 就是这样的尝试。

Pyro 基于 Python 与 PyTorch 之上，专注于变分推理，同时支持可组合推理算法。Pyro 的目标是更加动态（通过使用 PyTorch）和通用（允许递归）。

Zoubin 表示直接指定概率模型是笨重的，其执行也容易出错。概率编程语言（PPL）通过联合概率与编程语言的表征力量来解决上述问题。概率程序是一般确定性计算和随机采样值的混合，随机计算表征了数据的生成性。这一表征中隐含着概率，且这一规范也是通用的：通过这种方式可以编写任意的可计算概率模型。Pyro 全部使用 Python 作为基础语言，清晰而令人熟悉。

Pyro 构建在优秀的 PyTorch 库之上，后者包括使用非常快速、GPU 加速的张量数学的自动微分。PyTorch 动态构建梯度，使得 Pyro 程序包含随机控制结构，即 Pyro 程序中的随机选择能够控制其他随机选择的出现。随机控制结构是 PPL 通用的关键。因此，Pyro 能够表征任意概率模型，同时提供灵活、可扩展到大型数据集的自动优化推断。

最后，Zoubin 展示了一种自动化统计学。因为现在到处都存在数据，那么理解数据、构建模型并作决策会有非常大的价值。但是问题是目前没有那么多合格的数据科学家，因此可能的方向是开发一种自动从数据中构建模型的方法。

那么对于构建 AI 系统，我们到底要遵循什么样的规则？以下展示了感知、学习、推理和决策制定等 AI 系统应该遵循的原则，我们构建自动 AI 系统也应该遵循这些规则。

如上借助深度学习、ReLU 激活函数和各种结构，我们的系统能感知到真实世界中的数据。而贝叶斯法则和最大似然等规则可以让系统以更小的成本学习知识，其它如推理和决策也应该根据概率论、决策论和博弈论等领域的方法完成构建。

对于整个演讲的总结，Zoubin 表示概率建模为构建理性的 AI 系统提供了非常好的框架，在这个框架下我们能将现实世界中的不确定表示出来，并从数据中学习。

以上是 Zoubin 演讲的简要内容，前面主要介绍了为什么概率建模非常重要，后面则讲述了他所关注领域，包括贝叶斯深度学习、概率编程和自动化模型构建等。

本文为机器之心整理

纽约大学陈溪： AlphaGo Zero技术演进的必然性（附PPT）

来源：数据派THU

本讲座选自纽约大学助理教授陈溪近日在2018第二届杉数科技AI大师圆桌会上所做的题为《 AlphaGo Zero技术演进的必然性-机器学习与决策的有机结合》的演讲。

陈溪：今天我要跟大家分享一下为什么要把机器学习和运筹学这两个学科结合起来，才能有效地解决很多实际的问题。

一、机器学习

什么是机器学习？首先需要有一堆数据，然后有机器学习的算法，对于数据的统计建模、概率建模和数据的假设来作为算法的支撑。机器学习一般常用的应用是对数据进行预测，比如预测明天股票的价格，这种都是一些基础的预测，更重要的是通过机器学习，去学习数据中的一些模式。

机器学习从大的角度分成两类：监督学习与无监督学习（Supervised Learning & Unsupervised Learning）。比如我们通过房间里的照片来识别人脸，用某些方式进行一定的标注来确定人脸在什么地方，这时候我们就叫做有监督的学习。监督学习的框架如上图所示，根据预测的函数，把机器学习的特征映射到值域上。

没有监督的学习是一个更加广泛的领域，比如我们需要把图片进行分类，这是完全根据人的需求和感觉，通过机器学习方法进行分类。

深度学习是一个自动提取特征的有效工具，比如图像的结构化让深度学习得以提取足够的特征。然而并不是每个领域的数据都能够通过深度学习的方式把有效的特征提取出来，比如在很多金融领域，一定要把深度学习与非深度学习的方法进行有效的比对。

二、从学习到决策

传统的机器学习通常处理静态数据，但是这并不能满足很多商业需求，许多商业应用最终需要做决策。

上面这张图把整个数据分析分成五个阶段：

第一阶段：Descriptive（描述性），对数据进行基本的描述；
第二阶段：Diagnostic（诊断性），对数据进行基本的诊断；
第三阶段：Discovery（发现），挖掘数据内在的模型；
第四阶段：Predictive（预测性），预测可能发生的情况的分析；
第五阶段：Prescriptive（指定性），数据驱动决策的过程。

在现实领域中，我们会遇到很多决策的问题，比如决策库存量、设施位置、路线规划、商品价格等。

AlphaGo Zero，作为围棋的一个重大进展，它不仅要对对手进行预测，同时还要对落子进行决策。所以Google设计了deep reinforcement learning（深度强化学习），它带有决策的成分，通过Monte Carlo tree search（蒙特卡洛树搜索），让机器和机器自己进行对战，从而进行学习。不管是学习还是决策，Simulation technique（模拟技术）在AlphaGo Zero中也很重要。

对于商业应用仍然很简单，这是为什么？在一个围棋的程序中，尽管搜索空间很大，信息是完整的，然后目标函数简单而明确（赢或输），而在商业决策过程中，目标函数可能会非常复杂。

这个研究工作叫Assortment optimization，基本上是一个推荐系统，比如搜索一个航班，它会自动帮我挑出性价比最高的几个航班。

做Assortment optimization？首先，我们要了解客户的购买行为，然后用choice model（选择模型）去做选择。

MNL是Logit类模型的基本型式,其选择一个产品的概率等于这个产品的效率（用户喜欢的程度）除上所有推荐产品的效率总和加1（S：推荐的产品，a：选择的产品，1：用户什么产品都不喜欢）。

在现实生活中还有很多复杂的情况，MNL不可能是一直有效的模型。

Nested logit models是先选择一个大类，然后在大类中再进行产品的选择，如上图所示，概率分成两部分，一部分是选择毛衣的概率，另一部分是选择毛衣的具体款式的概率，这样就构建了一个多层的选择过程。

给定choice model，如何选择最好的产品推荐给客户？我们选择一个S（推荐的产品）做组合优化，使得它数学期望值的收益最大化。然而，现实生活中更复杂的问题是你并不知道用户选择产品的概率。

Ruelala和唯品会是快消品的销售平台，销售时间很短，没有足够多的历史数据去学习用户对产品的喜好程度。Facebook在做在线广告的时候，若产品的选择数以百万计，这时候就无法估计用户对每一个产品的喜好程度。所以我们需要动态推荐系统，把机器学习和智能决策结合起来。

上图是简单的动态雏形，在每一个时刻我们假设给用户做一个产品的推荐，通过用户购买情况，不断的学习和做决策，一直到整个销售区间终止。如果知道用户的选择概率，可以把它做成静态的优化问题，如果不知道，就做成一个动态的优化问题。

怎么评估算法的好坏？在学术圈有一个叫Regret analysis的方法：将最佳分类与选择分类预期收益均差最小化。我们的目标是构造一个机器学习和决策的算法，使得在时间足够长的时候，收益差非常小，以及收益差怎么减少。

这些模型虽然很有用，但还不够复杂，机器学习的精髓在于特征的提取，比如利用上下文的信息，把用户和产品的特征提取出来，做一个动态的Choice Model，这样就能更好的服务于现实。

沃尔玛做过类似的工作，根据用户已经放在购物车里的产品，在最后结账的过程中再推荐产品。

三、总结

很多商业的问题极其复杂，我们要深入理解问题本质的结构，机器学习与决策要有机的结合起来。只有把机器学习过程，随机的建模和优化全部柔和在一起，我们才能对大数据进行更好的理解和处理。

内容整理：陈龙

中科院自动化所王亮研究员：深度学习与视觉计算

来源：王亮人工智能前沿讲习班

导读

2016年12月，中国人工智能学会举办了第一期《人工智能前沿讲习班》，国内视觉大数据学者王亮老师做了题为《深度学习与视觉计算》的报告。王亮老师在报告中介绍了视觉大数据的概念与特征、深度学习的发展背景与在计算机视觉领域的应用现状。本文根据王亮老师当日报告内容整理发布，详见后文。

讲者简介

王亮，研究员，博士生导师。1997年和2000年分别获安徽大学工学学士和硕士学位，2004年获中国科学院自动化研究所工学博士学位。2004-2010年分别在英国帝国理工大学、澳大利亚莫纳什大学、澳大利亚墨尔本大学及英国巴斯大学工作，历任助理研究员、研究员和讲师。2010年入选中国科学院“百人计划”（终期优秀），2015年获得国家杰出青年科学基金，2016年获得第十四届中国青年科技奖，2018年入选首都科技领军人才培养工程。

目前是模式识别国家重点实验室副主任，中国计算机学会计算机视觉专委会秘书长，中国图象图形学学会视觉大数据专委会主任，中国电子学会青年科学家俱乐部副主席，中国图像视频大数据产业技术创新战略联盟秘书长，中科院脑科学与智能技术卓越中心骨干人才。王亮博士主要从事机器学习、计算机视觉、模式识别、数据挖掘等相关领域的研究工作。现已出版编(专)著7部，在主要的国内外学术期刊和国际学术会议上发表论文200余篇，谷歌引用1万余次。他现为或曾为IEEE TIFS、IEEE TSMC-B、PR等国际学术刊物的编委，曾获得中科院院长奖学金特别奖、中科院优秀博士论文及全国百篇优秀博士论文提名奖等荣誉。他是电子电气工程师学会(IEEE)高级会员，国际模式识别学会(IAPR)会士。

全文目录

一、视觉大数据

1.1 视觉大数据的来源

1.2 大规模视觉计算的特点

1.3 视觉大数据带来的挑战

1.4 大规模视觉计算的关键问题

1.5 小结

二、深度学习的发展背景

2.1 传统数据分析方法

2.2 深度学习的特点

2.3 深度学习的应用

2.4 人工神经网络的发展历程

2.5 深度学习的兴起与发展

2.6 卷积神经网络和递归神经网络

2.7 小结

三、深度学习在计算机视觉领域的应用现状

3.1 物体分割与识别

3.2 多标签图像检索

3.3 数据关系学习

3.4 视频分析

3.5 神经网络可视化

四、深度学习的的未来研究方向

4.1 深度图像分析

4.2 深度视频分析

4.3 大规模的深度学习

4.4 无监督（半监督）学习

4.5 大规模多模态学习

4.6 类脑智能研究

一、视觉大数据

人类感知外部世界的信息中有70%以上是由视觉系统所接收和处理的。从光学成像设备产生那时起，人们就在不断地对其进行改进，希望能够更加真实地记录客观世界。随着采集设备的普及，视觉大数据记录了人们生活的方方面面，所产生的数据量也在以前所未有的速度增加。

1.1 视觉大数据的来源

视觉大数据主要来源于互联网、移动互联网、广电网、视联网等。例如Facebook的注册用户超过8亿，每天上传的图片超过3亿张，视频超过300万个；从2009年到2014年，视频监控数据每年都以PB量级增长。时至今日，我们已然进入了视觉大数据时代，如何有效地利用视觉数据？将视觉数据转化为视觉红利？这需要我们对视觉大数据进行深入分析与理解。

视觉大数据的分析与理解在很多方面都有重要应用，比如休闲娱乐、自动驾驶、网络信息过滤、公安刑侦、机器人、视频监控、考勤安检等。视觉大数据的分析与理解是模式识别的前沿研究方向，也是当前比较火的人工智能突破口之一。

1.2 大规模视觉计算的特点

传统的视觉计算是对视觉信息或者数据的分析与处理，而大规模视觉计算是对大规模的视觉信息的分析与处理，它具有规模大、类别多、来源广这三个主要特点。

1.3 视觉大数据带来的挑战

大规模视觉计算带来了什么挑战？第一，跨景跨媒。跨场景指的是视觉数据来自于不同的应用场景；跨媒体指的是图像或者视频数据的出现通常还可能伴随着语音或文本，例如网络多媒体数据。第二，海量庞杂。视觉大数据不仅数据规模庞大，而且数据所包含的内容广泛，例如可能有娱乐视频、体育视频、新闻视频、监控视频等。第三，多源异质。同样的视觉数据可能来自于不同的数据源，例如体育视频可能来自于广播电视或者手机拍摄，数据可能来自RGB成像或者近红外成像。正是由于跨景跨媒、海量庞杂、多源异质等这些挑战，使得大规模视觉计算要比传统的视觉计算更加复杂和困难。

在小规模的PascalVOC数据集（20类目标，小于2万张图片）上，传统算法的分析精度很容易达到90%以上。但是对于大规模的ImageNet数据集（1000类目标，130万张图片），同样的算法其分析精度通常低于75%。这也是大规模视觉计算所带来的挑战。

1.4 大规模视觉计算的关键问题

大规模视觉计算有哪些关键问题？算法层面包含大规模特征表达、大规模模型学习、大规模知识迁移；系统层面包含大规模数据库构建、大规模数据处理平台。在系统层面，数据库是大规模视觉计算的根本，没有数据库就如同巧妇难为无米之炊。因此，建设大规模数据库是很重要的工作。计算机视觉领域著名的华人科学家李飞飞创建的ImageNet大规模数据集广为人知，现在ImageNet已成为视觉领域的经典数据集。今天在这里更多的介绍大规模视觉计算的算法层面，包括大规模的特征表达、模型学习和知识迁移这些问题。

第一个关键问题，大规模特征表达。

大规模特征表达，就是在多源异质的视觉大数据中找到具有较好泛化性和不变性的特征。在模式识别和计算机视觉领域中，强大的特征对于实际应用效果来说非常关键。因此，要分析跨景跨媒、多源异质的视觉大数据，就必须找到鲁棒的特征表达。

第二个关键问题，大规模模型学习。

视觉大数据时代，我们需要面对海量庞杂、种类繁多的视觉大数据。人工设计的特征不一定适用于大规模的模型学习。深度学习可以直接从海量数据中进行模型学习，且数据量越多模型效果越好，这是深度学习在大规模视觉计算中广泛应用的重要因素。

第三个关键问题，大规模知识迁移。

传统学习和迁移学习有什么区别？在传统学习中，每一数据域都有一个独立的学习系统，且不同域之间的学习过程是相互独立的。而在迁移学习中，源域学习得到的知识可以用以指导目标域的学习过程。

为什么在视觉大数据背景下进行知识迁移是可行的？答案可以总结为3V。第一，Volume。数据规模大，提供了足够的迁移数据源。第二，Variety。视觉大数据中的数据呈现多源异构多模态等性质，为知识迁移提供了必要条件。第三，Velocity。如今数据更新的速度特别快，利用迁移学习可以避免重复学习，即可以在已有模型的基础上更新模型，而不必对所有数据重新学习。

1.5 小结

在视觉大数据时代，如何能够有效地利用视觉数据来做有意义的事情？这需要研究大规模视觉计算。大规模视觉计算带来了新的挑战，包括海量庞杂、跨景夸媒、多源异质等问题。这其中包含了一些关键性问题，在算法层面有大规模特征学习、大规模模型学习、大规模知识迁移等；在系统层面有大规模数据构建问题，以及大规模视觉数据处理平台等。在视觉大数据时代，只有解决好大规模视觉计算的关键问题，才能把视觉大数据转换为视觉红利，这是非常重要的时代背景。

二、深度学习的发展背景

2.1 传统数据分析方法

传统的视觉信息处理，例如目标识别和检测，涉及到模式识别的两个经典问题，一是特征的提取与表示，二是模型的学习。传统方法需要经验知识手工设计视觉特征提取算法，缺少与环境的信息交互以及知识库的决策支持。例如，给定一幅“斑马”的图像，需要预测这幅图像的类别，按照传统的视觉模式分析，首先要提取特征，然后再额外利用SVM或者其他分类器进行模式分类。

2.2 深度学习的特点

深度学习可以解决端到端的模式识别问题，给定一个图像，经过“黑匣子”的学习，最终输出预测结果斑马。在这个端到端的识别的过程中，不加以区分地把特征提取和模型学习融为一体。通过深度神经网络来模拟从像素输入到“斑马”标签的非线性映射，即直接从原始数据到语义概念，这是对视觉大数据语义理解的变革性思路。

2.3 深度学习的应用

目前深度神经网络已在很多领域得到广泛应用，包括图像、声音、文本等多方面。深度模型学习是大数据时代视觉计算的重要突破，尤其从2006年开始，推动了视觉等众多领域的飞速发展。

2.4 深度学习的前身，人工神经网络的发展历程

学过模式识别的人都知道，深度神经网络是模式识别课程中比较经典的章节。而深度学习就是由深度神经网络发展而来的，现在比较流行的深度学习模型，例如CNN、RNN、LSTM等，早在几十年前便出现过。事实上，深度学习并不是新鲜事物，而是根源于传统的深度神经网络。

但是为什么深度神经网络在八九十年代没有流行？这和深度神经网络本身的缺陷有关。第一，深度神经网络包含着大量的参数。任意两个网络结点之间都有连接，当结点过多时，就会导致计算复杂度比较高。第二，需要大规模训练集。如果数据量不足就会导致模型过拟合。第三，相比其他的浅层模型，在识别准确率上没有明显优势。所以，在上世纪八九十年代以后，学者们更多选择手工设计特征加上浅层分类模型的策略。

为什么现在深度神经网络又会重新兴起？主要有两个方面的原因。第一是大规模数据的出现，使得模型拥有足够的数据用于训练。第二是高性能计算显著降低了数据处理的难度，而且高性能GPU的价格也开始平民化。大数据时代的到来和高性能计算的发展，恰好缓解了传统深度神经网络计算复杂度高和过拟合等问题。可以说，深度学习发展的转折点，就正是大数据和高性能计算时代的到来。

2.5 深度学习的兴起与发展

深度学习的兴起是从2006年发表在Science的文章开始的，这篇文章发现逐层预训练可以获得较好的局部最优解，使得训练更深层的神经网络模型成为可能，从而掀起了深度学习的热潮。在这段热潮之中，有一些先锋者，比如微软的邓力、斯坦福的吴恩达、多伦多大学的Hinton、纽约大学的Yan Lecun、蒙特利尔大学的Bengio等。

总体来说，按照模型划分，深度学习大致经历了三个主要阶段。

第一阶段，RBM/AE阶段，2006年开始

RBM是Restricted Boltzmann Machine的缩写，是早期深度学习的经典模型。AE是指自编码机模型。2006年Hinton发表在Science上的那篇文章，首先用逐层预训练的方法去初始化深度神经网络权重并取得了很好的效果，由此深度学习引起了大家的注意。RBM/AE是整个深度学习浪潮的开端。

在2006年RBM的基础上，后续出现了各种RBM和AE变形。在第一个阶段，主要是生成式模型，而且所使用的数据库基本上是中等规模的，模型方面也只是采用了相对较深层次的网络。这一阶段的热点问题是替代传统的手工设计特征，直接利用数据来进行表示学习。

第二阶段，CNN卷积神经网络

在2012年之前的ImageNet竞赛，传统方法在该竞赛中最高的识别率是2011年的74%。而到2012年，通过在GPU上使用卷积神经网络（CNN），可以把分类准确度提升11个百分点。在之后的几年里，所有参加竞赛的团队基本上都是使用的CNN模型，而且准确度逐年提升：2013年是89%、2014年是92%、2015年达到95%。

ImageNet竞赛之后，CNN强大的学习能力在各个视觉应用中得到了证明。例如，DeepFace在人脸识别当中的应用，DeepPose在姿态估计中的应用，RCNN在目标检测方面的应用等。

第二个阶段模型的特点可以简单地归纳为“判别式的模型”，使用的数据规模更大，网络层次也更深，并且开始使用GPU进行并行计算。这个阶段的热点问题，是利用卷积神经网络处理静态图像相关的各种任务，并不断刷新当前最好的性能。

第三阶段，RNN阶段，从2014年开始

前两个阶段都没有或很少考虑对序列数据建模，特别是对序列数据中的时间关系建模。递归神经网络（RNN）是序列化模型，其隐含层不仅接受当前时刻数据层的输入，同时也接受前一时刻隐含层的输入，因此RNN能够更好地解决时间关系建模问题。RNN随后在计算机视觉的各个任务都得到广泛应用，例如用于预测一段文字来表述图像内容。

2.6 卷积神经网络和递归神经网络

在计算机视觉领域中应用比较广泛的模型是CNN卷积神经网络和RNN递归神经网络。

卷积神经网络（CNN）也是深度神经网络（DNN）的一类经典形式。在深度神经网络中，每一个神经元都和其前后神经元相互连接。当输入数据的维度比较高时，就会带来大量需要学习的参数。

事实上，人眼在观察图像时，并不是感受整体图像，而只是观察局部的区域。受此启发，CNN在DNN的基础上替换了全连接操作，而改为局部连接的操作，也就是说一个神经元只与局部区域的神经元存在关联。此外，采用图像滤波的方式，使得不同区域的权值共享，可以显著减少模型的参数。

此外，CNN中很重要的操作就是池化（Pooling），它可以使CNN具有一定程度的平移不变性。例如，对于一个矩形框内的图像区域，框内的元素用某一种形式（例如最大值或均值等）保留，而去除其他元素。

因此，CNN的整体框架包括输入图像、卷积层、池化层，其中卷积层和池化层可以采用多层级联的方式，数量可以根据需要而设定。CNN所有的权值参数可以通过最小化模型的输出预测与真实值之间的误差来进行优化。

另外一个重要的模型就是RNN。左图展示一个三层的网络，x是输入层，h是隐含层，y是输出层，这是典型的三层的DNN网络。DNN通常用来处理静态数据，比如图像，但却不能很好地对时序关系建模，这就需要用到RNN。RNN是把序列数据，比如x1、x2、x3，作为网络输入并建模，最后得到输出y。在这个过程中，每个时刻的输入都对应着一个隐含层的表示，而相邻的隐含层之间又进行了一个连接操作。RNN可以看成是DNN沿着时间轴的扩展，它使用了额外的权重矩阵U，来对长距离的时间相关关系进行建模。

需要说明地是，RNN是非常深层的神经网络，尽管这里的RNN沿着时间轴仅有三步，但它不是三层的网络。这个RNN中，x1产生了h1，然后h1和x2的结合产生了h2，之后h2和x3的结合产生了h3，最后再输出，这其实是一个五层的网络模型。RNN的深度取决于输入序列的长度，短视频或者文本数据的长度一般都是大于20的，因此RNN就变成了很深层的神经网络。

如果RNN的深度大于10层，就不能有效地对长度距离相关关系进行建模。因为对所有的深度神经网络来说，增加了网络的深度，就容易在网络优化的过程中产生梯度消失或者梯度爆炸。

那么，什么是梯度消失或者梯度爆炸？下图是梯度传播公式，根据梯度的反向传播准则，误差传递到h(i)层时的梯度，其实是等于上一层h(i+1)层的梯度，乘以两类元素：第一是激活函数的导数，第二是网络的权重。如此迭代下去，等于顶层的梯度，乘以这两个元素的t次方。如果两个元素的乘积比较小（小于1），经过t次方以后，底层的梯度可能就接近零了，这被称作梯度消失；如果两个元素的乘积比较大（大于1），经过t次方以后可能非常大，就会出现梯度爆炸。所以当RNN比较深的时候，就需要解决梯度消失或者梯度爆炸的问题。

对于梯度爆炸，传统方法可以采用剪切形式直接拉回。即可以设定一个阈值，当计算出来的梯度超出阈值时，可以强制它回归到阈值的边界来。对于梯度消失，使得两个元素的乘积尽量接近于1比较好，因为1的t次方不会出现过大、过小的问题。

此外，还有一些更先进的网络结构可以缓解梯度消失和梯度爆炸的问题，例如LSTM和GRU模型。

2.7 小结

卷积神经网络和递归神经网络是深度学习的两个经典模型，这两个模型在计算机视觉领域应用广泛，希望上述介绍能让大家对CNN、RNN有一个基本的了解。

三、深度学习在计算机视觉中的应用

这里主要介绍我们近来一些代表性工作的背景和主要思想。

3.1 物体分割与识别

这是百度图像分割竞赛冠军2013年的工作。在图像或视频中，把用户指定的前景目标分割出来，这就是图像分割的基本概念。

我们当时选择典型的CNN框架，加入多通道的输入信息，利用三层上下文信息作为输入。可以采用不同尺度的框，来表示某像素周边的信息。图中显示的是以某一个位置中心点相关的三个不同尺度区域作为输入，并在CNN网络中将三个通道进行融合。CNN的训练目标是采用两个节点的二分类输出判断输入的中心点是前景还是背景。

当时我们的工作获得了竞赛特别奖，是国内性能最高的人形图像分割水平。基于这项技术，我们跟三星连续进行了两年合作，精度从之前的87%提高到95%以上，而且实时性非常好。

3.2 多标签图像检索

深度语义检索，是 CVPR2015年做的工作，是利用图像语义标签作为监督信息来学习图像间的排序。图像检索，就是任取一个图像来检索数据库里面与其相似的图像。多标签图像的特点是，每一个图像有多个不同标注。所有标签之间的语义关系，可以作为监督的信息指导CNN学习图像的表达，具体的技术细节此处不再展开。

多标签图像文本的分类与检索，是TMM2015的工作。图像的标签（文本标注）和图像所表示的语义信息是相关的，是多模态的数据。多模态数据可以通过模态的重合来更好的表示，这些表示可以进一步用于信息检索。针对多模态数据的学习，要考虑两个方面，一是模态的缺失问题，有的图像缺少标注信息，即文本是缺失的；另外就是类别标签的共生关系，有些标签是整体出现的，利用标签之间的相关关系可以提高性能。

我们提出的模型包含两个阶段，第一阶段使用传统的RBM模型，对于每一个模态分别学习其特征表示，在这个过程中可以尽量去除模态相关的特性。第二阶段，使用多标签条件的RBM来进行模态的融合及多标签的学习。如果文本、图像模态都给定，可以共同输入来融合得到共同的表示h。如果文本模态缺失，只有图像模态，则可以利用图像模态来产生文本模态，然后再进行融合。

3.3 数据关系学习

广义自编码机，CVPR-DeepVision2014最佳论文奖的工作。传统的Autoencoder的目标是最小化其本身和重构结果之间的误差。为了能够学习数据的局部结构关系，我们在重构过程中考虑了数据之间的相似性。在优化中，不仅是利用输入数据重构其自身，还要重构其周围相关数据点。

深度聚类，是ICPR2014最佳学生论文，这个工作也是基于Autoencoder做的。这个工作改变目标函数，在重构输入数据误差的基础上加入了新的规则项Group sparsity，这样能够进一步学习到类别相关的隐含表示。

深度关系学习，是ICCV2015的工作。在传统的Boltzmann Machines中引入了关系的类别标签Z，并且提出了条件高阶玻尔兹曼机（CHBM）。在这个过程中，x、y是两个输入，他们之间的关系用Z表示。两者之间的关系可能受隐含因素h的影响，如人脸匹配可能受到光照、视角或者表情的影响，因此h就可以学习到光照影响的可能关系。这样的模型怎么学习？因为它所包含的权重W是四阶张量，可以把四阶张量分解到矩阵的方式来简化求解。

3.4 视频分析

群体行为分析，是NIPS2013年和IJCV2016年的工作。行为分析从复杂度上划分，开始是简单的个体行为，后来做结构化的行为（如骑马），也包括一些群体行为识别（如结婚典礼、毕业典礼）。为了对复杂行为进行识别，我们提出类相关RBM模型。这个模型由两块组成：一部分提出视频的低层语义特征输入到模型来学习视频的中层表达特征；另一部分基于视频的语义标签，利用模型自动关联相应知识，进而来指导学习过程。

跨视角步态识别，是TPAMI2017的工作。步态识别是通过人走路的方式进行人的身份识别。但是在不同视角下，走路外观变化是不一样的，因此步态识别必须要解决跨视角的问题。我们利用卷积神经网络，做到了当前最好的识别性能。

3.5 神经网络可视化

人脑中的视觉注意机制，大部分是任务驱动的以自上而下的方式进行的，这个过程可认为是异步神经元的反馈调节。我们把每一层的输出作为反馈，来控制每一个神经元节点，而不是不加选择的、把噪声、背景全部上传。这个工作尝试对“反馈机制”建模，来查找图像中特定类别的目标。为了进一步增强筛选结果，可以引入生物神经系统中的侧向抑制，即在每一层的神经元抑制中，加入相互抑制和相互增强的过程。