【强化学习】一文读懂AlphaGo背后的强化学习：它的背景知识与贝尔曼方程的原理

2017 年 11 月 26 日 产业智能官 AI科技大本营

作者 | Joshua Greaves

译者 | 刘畅，林椿眄

本文是强化学习名作——“Reinforcement Learning: an Introduction”一书中最为重要的内容，旨在介绍学习强化学习最基础的概念及其原理，让读者能够尽快的实现最新模型。毕竟，对任何机器学习实践者来说，RL（强化学习，即Reinforcement Learning）都是一种十分有用的工具，特别是在AlphaGo的盛名之下。

第一部分，我们将具体了解了MDPs (马尔可夫决策过程)以及强化学习框架的主要组成部分；
第二部分，我们将构建并学习有关价值函数和Bellman (贝尔曼方程)的理论知识，它是强化学习中最重要公式，我们将一步一步地推导、解释，以揭开强化学习的神秘面纱。

当然，本文只是尽力用最快、最直观的方式带你来理解强化学习背后的理论，而要加深自己在该话题上的理解，Sutton和Barto所写的“Reinforcement Learning：An Introduction”肯定值得你用心读一读。此外，AlphaGo身后的大神David Silver在YouTube上所讲强化学习十课也值得你认真学一学。

监督学习 vs. 评估学习

对于很多感兴趣的问题，监督学习的范例没有办法给我们提供所需要的灵活性。监督学习和强化学习这两者之间最主要的区别在于收到的反馈是评估性的还是指导性的。指导性的反馈告诉你如何达到目标，而评估性的反馈则告诉你将会把目标完成到什么程度。监督学习以指导性的反馈为基础来解决问题，而强化学习则是基于评估性反馈来解决问题的。

图像分类就是用带有指导性反馈的监督学习解决问题的一个实际例子；当算法尝试分类一些特定的数据时，它将从指导性的反馈中了解到哪个才是真正的类别。而另一方面，评估性的反馈仅仅告诉你完成目标的程度。如果你用评估性反馈来训练一个分类器，你的分类器可能会说“我认为这是一个仓鼠”，然后它会得到50分。但是，由于没有任何语境信息，我们不知道这 50 分是什么。我们需要进行其他的分类，探索50分意味着我们是准确或是不准确。或许10000分是一个更好的分值，因此我们还是不知道它是什么，除非我们尝试去对其他数据再进行分类。

猜到是仓鼠就可以得到两个金色星星和一个笑脸，而猜沙鼠能得到一个银色星星和一个大拇指。

在我们感兴趣的很多问题中，评估性反馈的想法是更直观的，更易实现的。例如，想象一个控制着数据中心温度的系统。指导性反馈在这里似乎没有任何用处，你怎样告诉你的算法在任意给定的时间步中每个零件正确的设置是什么？评估性反馈在这里就将发挥它的用处了。你能很容易的知道在一个特定的时间段用了多少电，或者平均温度是多少，甚至有多少机器温度过高了等数据。这实际上就是谷歌使用强化学习解决这些问题的方式。让我们直接来学习吧。

马尔科夫决策过程

假定我们知道状态 s，如果未来的状态条件独立于过去的状态，那么状态 s 就具有马尔科夫性质。这意味着s描述了所有过去的状态直到现在的状态。如果这很难理解，那我们就用一个例子来解释，让这个问题显得更简单一点。假设一个球飞过空中，如果它的状态是由它的位置和速度决定，并足以描述它当前的位置和接下来的位置（不考虑物理模型和外界影响）。因此，这一状态就具备马尔科夫性质。但是，如果我们只知道这个球的位置不知道它的速度，它的状态就不再是马尔科夫。因为现在的状态并不是所有以前状态的归纳，我们需要以前的时间点所得到的信息去构建合适的球的模型。

强化学习通常可以建模为一个马尔科夫决策过程，即MDP(Markov Decision Process)。MDP是一个有向图，它有节点和边的状态，可以描述马尔科夫状态之间的转变，下面是一个简单的例子：

一个简单的马尔科夫决策过程

这个MDP展示了学习马尔科夫决策的过程。在最开始你在一个“不理解”的状态中，接下来，你有两个可能的动作，学习或者不学习。如果你选择不学习，则有100%的可能性返回到不理解的状态里。但是，如果你选择学习，只有20%的可能性让你回到最开始的地方，即80%的可能性变成理解的状态。

实际上，我确定转换到理解状态的可能性超过80%，MDP的核心其实很简单，在一个状态你可以采取一系列的动作，在你采取行动之后，这里有一些你能转化去什么状态的分布。在采取不学习动作的例子中，这个转化也能被很好的确定。

强化学习的目标是去学习怎么花更多的时间在更有价值的状态上，为了有一个更有价值的状态，我们需要MDP提供更多的信息。

你不需要一个MDP来告诉自己饿了要吃饭，但是强化学习的机制是需要它的

这个MDP增加了奖励机制，你每转化到一个状态，就会获得一次奖励。在这个例子中，由于接下来状态是饥饿，你会得到一个负面的奖励，如果接下来状态是饿死，那会得到一个更负面的奖励。如果你吃饱了，就会获得一个正面的奖励。现在我们的MDP已经完全成型，我们可以开始思考如何采取行动去获取能获得的最高奖励。

由于这个MDP是十分简单的，我们很容易发现待在一个更高奖励的区域的方式，即当我们饥饿的时候就吃。在这个模型中，当我们处于吃饱状态的时候没有太多其它的选择，但是我们将会不可避免的再次饥饿，然后立马选择进食。强化学习感兴趣的问题其实具有更大更复杂的马尔科夫决策过程，并且在我们开始实际探索前，我们通常不知道这些策略。

形式化强化学习问题

现在我们有了很多我们需要的基础材料，接下来我们需要将目光转向强化学习的术语。最重要的组成是智能体（agent）和环境（environment）。智能体是被间接控制的，且存在于环境中。回顾我们的马尔科夫决策模型，智能体可以在给定的状态下选择一个对它有显著影响的动作。然而，智能体并不能完全的控制环境的动态，环境会接收这些动作，然后返回新的状态和奖励。

来自Sutton和Barto的书“Reinforcement Learning: an Introduction”（这是强烈推荐的）的这张图，很好的解释了智能体和环境之间的相互作用。在某个时间步t，智能体处于状态s_t，采取动作a_t。然后环境会返回一个新的状态s_t+1和一个奖励r_t+1。奖励处于t+1时间步是因为它是由环境在t+1的状态s_t+1返回的，因此让它们两个保持一致更加合理（如上图所示）。

我们现在已经有一个强化学习问题的框架，接下来准备学习如何最大化奖励函数。在下一部分中，我们将进一步学习状态价值（state value）函数和动作价值（action value）函数，以及奠定了强化学习算法基础的贝尔曼（Bellman）方程，并进一步探索一些简单而有效的动态规划解决方案。

奖励与回报

正如前面所说的，强化学习中的智能体学习如何最大化未来的累积奖励。这个用来描述未来的累积奖励的词称为回报，通常用R表示。我们还使用下标t来表示在某个时间步骤下的返回值。数学公式的表示如下：

如果我们让这个级数无限延伸，那么我们可能会得到无穷的回报，但这样的话使得这个问题的定义失去意义。因此，只有当我们期望得到的奖励是有限级的，这个等式才有意义。有终止程序的任务称为情景任务。纸牌游戏是情景性问题的好例子。情景的开始是向每个人发牌，并且不可避免地根据特定的游戏规则而结束。然后，下一轮另一个情景又开始，再次处理这些纸牌。

比起使用未来的累积奖励，更为常用地是使用未来累积折扣奖励：

在这里0<γ<1。以这种方式来定义回报值有两个好处：不仅能够以无限级数来定义回报值，而且还能为随后的回报赋予更好的权重，这意味着我们更关心即将到来的回报，而不是我们将来会得到的回报。γ的值越小，就越正确。在特殊情况下，我们令γ等于0或者1。当γ等于1时，我们就回到了第一个等式，我们关心的是所有的回报，而不是考虑到未来有多远。另一方面，当γ等于0时，我们关心的是当前的回报，而不考虑之后的任何回报。这将导致我们的算法缺乏长远性。它将学会采取最适合当前情况的行动，但不会考虑此行动对未来的影响。

策略

策略，被记为Π(s,a)，描述了行动的一个方式。它是一个这样的函数：接受一个状态和一个动作，并返回在该状态下采取这个动作的概率。因此，对于一个给定的状态，它必须满足。在下面的例子中，当我们饿时，我们可以在吃和不吃两个动作之间做出选择。

我们的策略应该描述如何在每个状态下采取行动。因此，一个等概率的随机策略就该像这样子：。其中E代表吃的行动，代表不吃的行动。这意味着，如果你处于饥饿状态，你在选择吃或者不吃的概率是相同的。

我们使用强化学习的目标是为了去学习一个最优的策略Π*，它告诉我们如何行动以得到最大化的回报。这只是一个简单的例子，容易知道例子中的最优决策是饿了就吃。在这个实例中，正如许多MDPs (马尔可夫决策过程)一样，最优的决策是确定性的。每一个最佳状态都有一个最佳行动。有时这被写成

Π*(s)=a，这是一个从状态到这些状态下最优决策行动的一个映射。

价值函数

我们利用价值函数来得到学习的最优策略。强化学习中有两种类型的价值函数：状态价值函数，表示为V(s)；和行为价值函数，表示为Q(s,a)。

状态价值函数描述了在执行一个策略时的状态值。这是一个从状态s开始执行我们的策略Π所得到的预期回报：

(1)

值得注意的是，即使在相同的环境下，价值函数也会根据策略而改变。这是因为状态的价值函数取决于你的行为方式，因为你在某一个特定的状态下的行为会影响你预期的回报。同样要注意的是期望的重要性。(期望就像一个平均值，就是你期望看到的回报)。我们使用期望的原因在于：当你到达一个状态时，会发生一些随机状况。你可能有一个随机策略，这意味着我们需要将我们所采取的所有不同行动的结果结合起来。同样地，过渡函数可以是随机的，也就是说，我们不能以100%的概率结束任何状态。记住上面的这个例子：当你选择一个行动时，环境将返回下一个状态。可能有多个状态可以返回，甚至是一个动作。更多的信息我们将会在Bellman方程(贝尔曼方程)中得到。期望将所有的随机性都考虑在内。

我们将使用另一个价值函数是动作价值函数。动作价值函数是指我们采取某一特定策略时，在某个状态下采取一个动作所产生的价值。这是在策略Π下，对给定状态和行动时所返回的预期回报：

(2)

对状态价值函数的注释同样适用于动作价值函数。它将考虑到未来行动的随机性，以及从环境中返回状态的随机性。

贝尔曼方程

Richard Bellman是一位美国应用数学家，他推导了以下方程，让我们能够开始求解这些MDPs (马尔可夫决策过程)。在强化学习中，贝尔曼方程无处不在，必须了解强化学习算法是如何工作的。但是在我们了解贝尔曼方程之前，我们需要了解一些更有用的符号。我们把P和R定义为如下：

P是过渡概率。如果我们在状态s处开始，采取行动a，那么我们在状态s’的概率为。

是另一种表达我们从状态s开始，采取行动a，到状态s’的期望 (或平均) 奖励的表达方式。

最后，有了这些知识，我们准备推导Bellman方程 (贝尔曼方程)。我们将把状态价值函数考虑到Bellman方程(贝尔曼方程)之内。根据回报的定义，我们可以修改公式(1)为如下所示：

如果我们想从总和回报中提出第一个奖励，公式可以被改写为这样：

在这里期望可以被描述如果我们采取策略Π时，继续从状态s出发的期望回报。可以通过对所有可能的动作和所有可能的返回状态的求和来描述期望。接下来的两个方程可以帮助我们迈出下一步。

通过对这两个部分分配期望值，我们就可以将我们的方程转化为如下形式：

值得注意得是，方程(1)和这个方程的结束部分是一样的。因此，我们可以将其替换，得到如下：

(3)

Bellman方程(贝尔曼方程)的动作价值函数可以以类似的方式推导出来。感兴趣的人可以在文章的最后看到具体的步骤。其最终结果如下：

(4)

Bellman方程的重要性在于，它能让我们将一个状态的值表达成其他状态的值。这意味着当我们知道状态st+1的值时，我们可以轻松地计算出状态st的值。这为我们解决每个状态值的迭代计算问题打开了大门，因为如果我们知道下一个状态的值，我们就能知道当前状态的值。在这里，最重要的是要记住方程式的编号。最后，随着Bellman方程(贝尔曼方程)的出现，我们可以开始研究如何计算最优策略，并编写我们的第一个强化学习智能体程序。

下一步：动态规划

在下一篇文章中，我们将研究使用动态规划来计算最优策略，这将为更高级的算法奠定基础。然而，这将是第一个实际编写强化学习算法的机会。我们将研究策略迭代和值迭代以及他们的优缺点。在此之前，感谢您的阅读。

正如所承诺的：推导Bellman方程的动作价值函数(贝尔曼方程)

正在我们推导出Bellman方程状态价值函数的过程一样，我们用相同的推导过程得到了一系列的方程，下面我们从方程(2)开始继续推导：

深度学习高手该怎样炼成？这位拿下阿里天池大赛冠军的中科院博士为你规划了一份专业成长路径

作者 | 刘昕

深度学习本质上是深层的人工神经网络，它不是一项孤立的技术，而是数学、统计机器学习、计算机科学和人工神经网络等多个领域的综合。深度学习的理解，离不开本科数学中最为基础的数学分析（高等数学）、线性代数、概率论和凸优化；深度学习技术的掌握，更离不开以编程为核心的动手实践。没有扎实的数学和计算机基础做支撑，深度学习的技术突破只能是空中楼阁。

所以，想在深度学习技术上有所成就的初学者，就有必要了解这些基础知识之于深度学习的意义。除此之外，我们的专业路径还会从结构与优化的理论维度来介绍深度学习的上手，并基于深度学习框架的实践浅析一下进阶路径。

最后，本文还将分享深度学习的实践经验和获取深度学习前沿信息的经验。

数学基础

如果你能够顺畅地读懂深度学习论文中的数学公式，可以独立地推导新方法，则表明你已经具备了必要的数学基础。

掌握数学分析、线性代数、概率论和凸优化四门数学课程包含的数学知识，熟知机器学习的基本理论和方法，是入门深度学习技术的前提。因为无论是理解深度网络中各个层的运算和梯度推导，还是进行问题的形式化或是推导损失函数，都离不开扎实的数学与机器学习基础。

数学分析：在工科专业所开设的高等数学课程中，主要学习的内容为微积分。对于一般的深度学习研究和应用来说，需要重点温习函数与极限、导数（特别是复合函数求导）、微分、积分、幂级数展开、微分方程等基础知识。在深度学习的优化过程中，求解函数的一阶导数是最为基础的工作。当提到微分中值定理、Taylor公式和拉格朗日乘子的时候，你不应该只是感到与它们似曾相识。这里推荐同济大学第五版的《高等数学》教材。

线性代数：深度学习中的运算常常被表示成向量和矩阵运算。线性代数正是这样一门以向量和矩阵作为研究对象的数学分支。需要重点温习的包括向量、线性空间、线性方程组、矩阵、矩阵运算及其性质、向量微积分。当提到Jacobian矩阵和Hessian矩阵的时候，你需要知道确切的数学形式；当给出一个矩阵形式的损失函数时，你可以很轻松的求解梯度。这里推荐同济大学第六版的《线性代数》教材。

概率论：概率论是研究随机现象数量规律的数学分支，随机变量在深度学习中有很多应用，无论是随机梯度下降、参数初始化方法（如Xavier），还是Dropout正则化算法，都离不开概率论的理论支撑。除了掌握随机现象的基本概念（如随机试验、样本空间、概率、条件概率等）、随机变量及其分布之外，还需要对大数定律及中心极限定理、参数估计、假设检验等内容有所了解，进一步还可以深入学习一点随机过程、马尔可夫随机链的内容。这里推荐浙江大学版的《概率论与数理统计》。

凸优化：结合以上三门基础的数学课程，凸优化可以说是一门应用课程。但对于深度学习而言，由于常用的深度学习优化方法往往只利用了一阶的梯度信息进行随机梯度下降，因而从业者事实上并不需要多少“高深”的凸优化知识。理解凸集、凸函数、凸优化的基本概念，掌握对偶问题的一般概念，掌握常见的无约束优化方法如梯度下降方法、随机梯度下降方法、Newton方法，了解一点等式约束优化和不等式约束优化方法，即可满足理解深度学习中优化方法的理论要求。这里推荐一本教材，Stephen Boyd的《Convex Optimization》。

机器学习：归根结底，深度学习只是机器学习方法的一种，而统计机器学习则是机器学习领域事实上的方法论。以监督学习为例，需要你掌握线性模型的回归与分类、支持向量机与核方法、随机森林方法等具有代表性的机器学习技术，并了解模型选择与模型推理、模型正则化技术、模型集成、Bootstrap方法、概率图模型等。深入一步的话，还需要了解半监督学习、无监督学习和强化学习等专门技术。这里推荐一本经典教材《The elements of Statistical Learning》。

计算机基础

深度学习要在实战中论英雄，因此具备GPU服务器的硬件选型知识，熟练操作Linux系统和进行Shell编程，熟悉C++和Python语言，是成长为深度学习实战高手的必备条件。当前有一种提法叫“全栈深度学习工程师”，这也反映出了深度学习对于从业者实战能力的要求程度：既需要具备较强的数学与机器学习理论基础，又需要精通计算机编程与必要的体系结构知识。

编程语言：在深度学习中，使用最多的两门编程语言分别是C++和Python。迄今为止，C++语言依旧是实现高性能系统的首选，目前使用最广泛的几个深度学习框架，包括Tensorflow、Caffe、MXNet，其底层均无一例外地使用C++编写。而上层的脚本语言一般为Python，用于数据预处理、定义网络模型、执行训练过程、数据可视化等。当前，也有Lua、R、Scala、Julia等语言的扩展包出现于MXNet社区，呈现百花齐放的趋势。这里推荐两本教材，一本是《C++ Primer第五版》，另外一本是《Python核心编程第二版》。

Linux操作系统：深度学习系统通常运行在开源的Linux系统上，目前深度学习社区较为常用的Linux发行版主要是Ubuntu。对于Linux操作系统，主要需要掌握的是Linux文件系统、基本命令行操作和Shell编程，同时还需熟练掌握一种文本编辑器，比如VIM。基本操作务必要做到熟练，当需要批量替换一个文件中的某个字符串，或者在两台机器之间用SCP命令拷贝文件时，你不需要急急忙忙去打开搜索引擎。这里推荐一本工具书《鸟哥的Linux私房菜》。

CUDA编程：深度学习离不开GPU并行计算，而CUDA是一个很重要的工具。CUDA开发套件是NVidia提供的一套GPU编程套件，实践当中应用的比较多的是CUDA-BLAS库。这里推荐NVidia的官方在线文档http://docs.nvidia.com/cuda/。

其他计算机基础知识：掌握深度学习技术不能只满足于使用Python调用几个主流深度学习框架，从源码着手去理解深度学习算法的底层实现是进阶的必由之路。这个时候，掌握数据结构与算法（尤其是图算法）知识、分布式计算（理解常用的分布式计算模型），和必要的GPU和服务器的硬件知识（比如当我说起CPU的PCI-E通道数和GPU之间的数据交换瓶颈时，你能心领神会），你一定能如虎添翼。

深度学习入门

接下来分别从理论和实践两个角度来介绍一下深度学习的入门。

深度学习理论入门：我们可以用一张图（图1）来回顾深度学习中的关键理论和方法。从MCP神经元模型开始，首先需要掌握卷积层、Pooling层等基础结构单元，Sigmoid等激活函数，Softmax等损失函数，以及感知机、MLP等经典网络结构。接下来，掌握网络训练方法，包括BP、Mini-batch SGD和LR Policy。最后还需要了解深度网络训练中的两个至关重要的理论问题：梯度消失和梯度溢出。

以卷积神经网络为例，我们用图2来展示入门需要掌握的知识。起点是Hubel和Wiesel的对猫的视觉皮层的研究，再到日本学者福岛邦彦神经认知机模型（已经出现了卷积结构），但是第一个CNN模型诞生于1989年，1998年诞生了后来被大家熟知的LeNet。随着ReLU和Dropout的提出，以及GPU和大数据所带来的历史机遇，CNN在2012年迎来了历史性的突破——诞生了AlexNet网络结构。2012年之后，CNN的演化路径可以总结为四条：1. 更深的网络；2. 增强卷积模的功能以及上诉两种思路的融合ResNet和各种变种；3. 从分类到检测，最新的进展为ICCV 2017的Best Paper Mask R-CNN；4. 增加新的功能模块。

深度学习实践入门：掌握一个开源深度学习框架的使用，并进一步的研读代码，是实际掌握深度学习技术的必经之路。当前使用最为广泛的深度学习框架包括Tensorflow、Caffe、MXNet和PyTorch等。框架的学习没有捷径，按照官网的文档step by step配置及操作，参与GitHub社区的讨论，遇到不能解答的问题及时Google是快速实践入门的好方法。

初步掌握框架之后，进一步的提升需要依靠于具体的研究问题，一个短平快的策略是先刷所在领域权威的Benchmark。例如人脸识别领域的LFW和MegaFace，图像识别领域与物体检测领域的ImageNet、Microsoft COCO，图像分割领域的Pascal VOC等。通过复现或改进别人的方法，亲手操练数据的准备、模型的训练以及调参，能在所在领域的Benchmark上达到当前最好的结果，实践入门的环节就算初步完成了。

后续的进阶，就需要在实战中不断地去探索和提升了。例如：熟练的处理大规模的训练数据，精通精度和速度的平衡，掌握调参技巧、快速复现或改进他人的工作，能够实现新的方法等等。

深度学习实战经验

在这里，分享四个方面的深度学习实战经验。

1. 充足的数据。大量且有标注的数据，依旧在本质上主宰着深度学习模型的精度，每一个深度学习从业者都需要认识到数据极端重要。获取数据的方式主要有三种：开放数据（以学术界开放为主，如ImageNet和LFW）、第三方数据公司的付费数据和结合自身业务产生的数据。

2. 熟练的编程实现能力。深度学习算法的实现离不开熟练的编程能力，熟练使用Python进行编程是基础。如果进一步的修改底层实现或增加新的算法，则可能需要修改底层代码，此时熟练的C++编程能力就变得不可或缺。一个明显的现象是，曾经只需要掌握Matlab就可以笑傲江湖的计算机视觉研究者，如今也纷纷需要开始补课学习Python和C++了。

3. 充裕的GPU资源。深度学习的模型训练依赖于充裕的GPU资源，通过多机多卡的模型并行，可以有效的提高模型收敛速度，从而更快的完成算法验证和调参。一个专业从事深度学习的公司或实验室，拥有数十块到数百块的GPU资源已经是普遍现象。

4. 创新的方法。以深度学习领域权威的ImageNet竞赛为例，从2012年深度学习技术在竞赛中夺魁到最后一届2017竞赛，方法创新始终是深度学习进步的核心动力。如果只是满足于多增加一点数据，把网络加深或调几个SGD的参数，是难以做出真正一流的成果的。

根据笔者的切身经历，方法创新确实能带来难以置信的结果。一次参加阿里巴巴组织的天池图像检索比赛，笔者提出的一点创新——使用标签有噪声数据的新型损失函数，结果竟极大地提高了深度模型的精度，还拿到了当年的冠军。

深度学习前沿

【前沿信息的来源】

实战中的技术进阶，必需要了解深度学习的最新进展。换句话说，就是刷论文：除了定期刷Arxiv，刷代表性工作的Google Scholar的引用，关注ICCV、CVPR和ECCV等顶级会议之外，知乎的深度学习专栏和Reddit上时不时会有最新论文的讨论（或者精彩的吐槽）。

一些高质量的公众号，例如Valse前沿技术选介、深度学习大讲堂、Paper Weekly等，也时常有深度学习前沿技术的推送，也都可以成为信息获取的来源。同时，关注学术界大佬LeCun和Bengio等人的Facebook/Quora主页，关注微博大号“爱可可爱生活”等人，也常有惊喜的发现。

【建议关注的重点】

新的网络结构。在以SGD为代表的深度学习优化方法没有根本性突破的情况下，修改网络结构是可以较快提升网络模型精度的方法。2015年以来，以ResNet的各种改进为代表的各类新型网络结构如雨后春笋般涌现，其中代表性的有DenseNet、SENet、ShuffuleNet等。

新的优化方法。纵观从1943年MCP模型到2017年间的人工神经网络发展史，优化方法始终是进步的灵魂。以误差反向传导（BP）和随机梯度下降（SGD）为代表的优化技术的突破，或是Sigmoid/ReLU之后全新一代激活函数的提出，都非常值得期待。笔者认为，近期的工作如《Learning gradient descent by gradient descent》以及SWISH激活函数，都很值得关注。但能否取得根本性的突破，也即完全替代当前的优化方法或ReLU激活函数，尚不可预测。

新的学习技术。深度强化学习和生成对抗网络（GAN）。最近几周刷屏的Alpha Zero再一次展示了深度强化学习的强大威力，完全不依赖于人类经验，在围棋项目上通过深度强化学习“左右互搏”所练就的棋力，已经远超过上一代秒杀一众人类高手的AlghaGo Master。同样的，生成对抗网络及其各类变种也在不停地预告一个学习算法自我生成数据的时代的序幕。笔者所在的公司也正尝试将深度强化学习和GAN相结合，用于跨模态的训练数据的增广。

新的数据集。数据集是深度学习算法的练兵场，因此数据集的演化是深度学习技术进步的缩影。以人脸识别为例，后LFW时代，MegaFace和Microsoft Celeb-1M数据集已接棒大规模人脸识别和数据标签噪声条件下的人脸识别。后ImageNet时代，Visual Genome正试图建立一个包含了对象、属性、关系描述、问答对在内的视觉基因组。

作者简介：刘昕，工学博士，毕业于中国科学院计算技术研究所，师从山世光研究员。主要从事计算机视觉技术和深度学习技术的研究与工业化应用，现担任人工智能初创公司中科视拓CEO。

本文为《程序员》原创文章

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。