【深度强化学习】专业解读“深度强化学习“：从AlphaGo到AlphaGoZero

2017 年 11 月 2 日 产业智能官

来源：中国科学院自动化研究所授权 “产业智能官” 转载。

近日，DeepMind在Nature上公布了最新版AlphaGo论文，介绍了迄今为止最强的围棋AI:AlphaGoZero。AlphaGoZero不需要人类专家知识，只使用纯粹的深度强化学习技术和蒙特卡罗树搜索，经过3天自我对弈以100：0击败上一版本AlphaGo。AlphaGoZero证明了深度强化学习的强大能力，这一成果也势必将推动该领域的进一步发展。

深度强化学习和AlphaGo

在人工智能领域，感知和决策能力是衡量智能的关键指标。近几年深度学习和强化学习的发展使得直接从原始的数据中提取高水平特征进行感知决策变成可能。深度学习起源于人工神经网络。早期研究人员提出了多层感知机的概念，并且使用反向传播算法优化多层神经网络，但是由于受到梯度弥散或爆炸问题的困扰和硬件资源的限制，神经网络的研究一直没有取得突破性进展。随着计算资源的提升和相应算法的发展，深度学习在人工智能领域取得了一系列重大突破，包括语音识别、图像识别及检测、自然语言处理等。深度学习由于其强大的表征能力和泛化性能受到了越来越多研究人员的关注，相关技术在学术界和工业界都得到了广泛的研究。

强化学习是机器学习中的一个重要研究领域，它以试错的机制与环境进行交互，通过最大化累积奖赏来学习最优策略。强化学习的框架如图1所示。强化学习智能体在当前状态st下根据策略π来选择动作at。环境接收该动作并转移到下一状态st+1，智能体接收环境反馈回来的奖赏rt并根据策略选择下一步动作。强化学习不需要监督信号，在模型未知的环境中平衡探索和利用，其主要算法有Q学习，策略梯度等。Q学习是强化学习最重要的算法之一，其主要更新公式为：

其中α是学习率，γ是折扣因子，方括号内表示的是TD误差。强化学习由于其优秀的决策能力在人工智能领域也得到了广泛应用，代表工作TD-Gammon。

图1.强化学习框架图

在通用人工智能领域，感知和决策能力都是衡量一个智能体所蕴含智能的关键指标。早期成功的强化学习应用案例主要依赖于组合人工特征和价值函数来实现，随着深度学习的进展，直接从原始的高维数据中提取特征变成可能。深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。因此，将两者结合起来，优势互补，能够为复杂系统的感知决策问题提供解决思路。图2是深度强化学习的框架图，从图中可以看到，DRL的框架包含两个基本模块：由深度学习组成的感知模块和由强化学习组成的决策模块。两个模块之前通过状态动作相互影响。

图2.深度强化学习框架

深度强化学习早期的主要思路是将神经网络用于复杂高维数据的特征提取，转化到低维特征空间便于强化学习处理。由于卷积神经网络对图像处理拥有天然的优势，将卷积神经网络与强化学习结合成了研究热点。2013年，DeepMind团队发表了一篇关于深度强化学习应用于Atari视频游戏的重量级论文，首次在复杂高维的状态空间下使用深度强化学习学会了游戏策略。该文章中提出的深度强化学习框架被称为深度Q网络（DeepQ Network：DQN）。2015年，DeepMind团队进一步完善了DQN算法，并将研究成果发表在Nature上。DQN将深度卷积神经网络和Q学习结合到一起，并集成了经验回放技术和目标Q网络。经验回放通过周期采样历史数据增加了数据的利用效率，同时减少了数据之间的相关性。DQN在大部分Atari视频游戏中实现了人类玩家的控制效果，是深度强化学习领域重要的开创性工作。

DQN的网络框架如图3所示。训练过程中，采取相邻的4帧游戏画面作为网络的输入，经过三个带有ReLU激活函数的卷积层和两个全连接层，输出当前状态下可选动作的Q值，实现了端到端的学习控制。DQN采用带有参数θ的卷积神经网络作为函数逼近器。在迭代次数为i时，损失函数为：

其中：

θ-代表的是目标Q网络的参数。目标Q网络经过固定迭代次数后更新一次。

图3.DQN网络结构图

DRL领域又一里程碑式的工作是由DeepMind在2016年初发表于Nature上的围棋AI：AlphaGo，如图4所示。AlphaGo的问世将深度强化学习的研究推向了新的高度。它创新性地结合深度强化学习和蒙特卡罗树搜索，通过策略网络选择落子位置降低搜索宽度，使用价值网络评估局面以减小搜索深度，这样搜索效率得到了大幅提升，胜率估算也更加精确。与此同时，AlphaGo使用强化学习的自我博弈来对策略网络进行学习，改善策略网络的性能，使用自我对弈和快速走子结合形成的棋谱数据进一步训练价值网络。最终的在线对弈时结合策略网络和价值网络的蒙特卡罗树搜索在当前局面下选择最终的落子位置。

图4. 围棋AI：AlphaGo

深度强化学习最新进展

随着AlphaGo的出现，深度强化学习领域的研究取得了一系列进展。作为真正意义上将深度学习和强化学习结合起来并实现了端到端学习决策的算法，DQN的出现引发了众多研究团队的关注。Schaul等提出一种带优先级经验回放的深度Q网络，该方法对经验数据进行优先次序的处理，增加重要历史数据的回放频率来提高学习效果，加速学习进程。DQN的另一个不足是它漫长的训练时间，为此Nair等提出了DQN的大规模分布式架构—Gorila，极大提高了学习速率。Guo等提出将蒙特卡罗树搜索与DQN结合，实现了Atari游戏的实时处理，游戏得分也普遍高于原始DQN得分。此外，Q学习由于学习过程中固有的估计误差，在大规模数据的情况下会对动作的值产生过高估计。Van等提出的双重DQN将两个Q学习方法运用到Q函数更新中，有效避免了过高估计，并且取得了更加稳定的学习策略。Wang等受优势学习的启发提出了竞争架构的深度强化学习算法，实验证明竞争架构的DQN能够取得更好的评估策略。探索和利用问题一直是强化学习中的主要问题，复杂环境中的高效探索对深度强化学习的学习结果有深远影响。Osband等提出一种引导深度Q网络，通过使用随机值函数让探索的效率和速率得到了显著的提升。

递归神经网络适合处理和时间序列相关的问题，强化学习与递归神经网络的结合也是深度强化学习的主要形式。Narasimhan等提出一种长短时记忆网络与强化学习结合的深度网络架构来处理文本游戏。这种方法能够将文本信息映射到向量空间从而获取游戏状态的语义信息。对于时间序列信息，深度Q网络的处理方法是加入经验回放机制。但是经验回放的记忆能力有限，每个决策点需要获取整个输入画面进行感知记忆。Hausknecht等将长短时记忆网络与深度Q网络结合，提出深度递归Q网络，在部分可观测马尔可夫决策过程中表现出了很好的鲁棒性，同时在缺失若干帧画面的情况下也能获得不错的实验结果。随着视觉注意力机制在目标跟踪和机器翻译等领域的成功，Sorokin等受此启发提出深度注意力递归Q网络。它能够选择性地重点关注相关信息区域，从而减少深度神经网络的参数数量和计算开销。

此后，研究人员在已有深度强化学习算法上做了进一步改进。Mnih等提出了深度强化学习的异步算法，通过CPU的多线程同时训练多个游戏，共享网络参数的同时也克服了训练数据的相关性，在多个CPU上训练极大提升了学习速率和算法性能。Jaderberg等提出UNREAL算法，在A3C的基础上学习多个辅助任务。UNREAL提升了深度强化学习的数据利用率，在Atari和三维游戏场景中都达到了更好的效果。作为DQN的一种变体，C51算法从分布式的角度分析深度强化学习，将Q(s,a)看做回报的近似分布而不是一个具体的近似期望值。与UNREAL算法相比，C51在Atari视频游戏上的平均性能表现要优于前者。参数噪声可以帮助算法更有效地探索周围的环境，加入参数噪声的训练方法将会让模型的效果大大提升，并且可以让我们更快地教会强化学习智能体执行任务。NoisyDQN在动作空间中借助噪声注入进行探索性行为，结果表明带有参数噪声的强化学习将比分别带有动作空间参数和进化策略的传统强化学习效率更高。以上的算法各自都可以提升深度强化学习性能的某个方面，因为它们都着力于解决不同的问题，而且都构建在同一个框架上，所以能够被整合起来。在DeepMind 最近发表的论文中，研究人员综合了主流深度强化学习方法，并提出了整合方案：Rainbow，如图5所示。通过实验结果，研究人员展示了整合后的表现，证明了这些算法很大程度上是互补的。最终，Rainbow在Atari2600 视频游戏基准测试平台的数据效率和最终结果上都达成了新的业界最佳水平。

图5Rainbow在Atari 游戏中与各类DQN 方法的性能对比

从DQN到Rainbow，深度强化学习作为一个新兴的研究领域，其理论和应用得到了逐渐完善。在大规模的任务中，深度强化学习智能体展示了卓越的进步。研究人员在基于值函数和基于策略梯度的深度强化学习算法方面都取得了一系列的研究成果。深度强化学习的研究一方面可以提升各种复杂场景中智能体的感知决策能力，另一方面，高效算法的应用落地也能为社会带来更多积极的影响，比如医疗、智能驾驶、推荐系统等。

从AlphaGo 到AlphaGo Zero

AlphaGo Zero的出现，再一次引发了各界对深度强化学习方法和围棋AI的关注与讨论。AlphaGoFan和AlphaGo Lee都采用了两个神经网络的结构，如图6所示。其中策略网络初始是基于人类专业棋手数据采用监督学习的方式进行训练，然后利用策略梯度强化学习方法进行能力提升。在训练过程中，深度神经网络与蒙特卡洛树搜索方法相结合形成树搜索模型，本质上是使用神经网络方法对树搜索空间的优化。

图6. AlphaGo的网络结构图

AlphaGo连续战胜李世石和柯洁，都表明了基于深度学习、强化学习和蒙特卡罗树搜索的方法能有效解决完全信息的博弈问题。

图7.AlphaGo与李世石和柯洁的对弈图

然而，AlphaGo Zero做了更进一步的升级和改进。AlphaGo Zero将策略网络和价值网络整合在一起，使用纯粹的深度强化学习方法进行端到端的自我对弈学习。AlphaGo Zero自学习训练过程如图8所示。

图8AlphaGo Zero自学习训练过程

AlphaGo Zero与之前的版本有很大不同。几个主要的不同点在于:

第一，神经网络权值完全随机初始化。不利用任何人类专家的经验或数据，神经网络的权值完全从随机初始化开始，进行随机策略选择，使用强化学习进行自我博弈和提升。

第二，无需先验知识。不再需要人为手工设计特征，而是仅利用棋盘上的黑白棋子的摆放情况，作为原始输入数据，将其输入到神经网络中，以此得到结果。

第三，神经网络结构复杂性降低。原先两个结构独立的策略网络和价值网络合为一体，合并成一个神经网络。在该神经网络中，从输入层到中间层是完全共享的，到最后的输出层部分被分离成了策略函数输出和价值函数输出。

第四，舍弃快速走子网络。不再使用快速走子网络进行随机模拟，而是完全将神经网络得到的结果替换随机模拟，从而在提升学习速率的同时，增强了神经网络估值的准确性。

第五，神经网络引入残差结构。神经网络采用基于残差网络结构的模块进行搭建，用了更深的神经网络进行特征表征提取。从而能在更加复杂的棋盘局面中进行学习。

第六，硬件资源需求更少。以前ELO最高的AlphaGo需要1920块CPU和280块GPU训练，AlphaGoLee则用了176块GPU和48块TPU，而现在，AlphaGoZero则使用了单机4块TPU便能完成训练任务，如图9所示。

第七，学习时间更短。AlphaGoZero仅用3天的时间便能达到AlphaGoLee的水平，21天后达到AlphaGoMaster的水平，棋力提升非常快如图10所示。

图9各个版本的AlphaGo所需硬件资源对比

图10AlphaGo Zero的棋力提升过程和与其他围棋AI的ELO比较

AlphaGoZero 的成功证明了在没有人类指导和经验的前提下，深度强化学习方法在围棋领域里仍然能够出色的完成指定的任务，甚至于比有人类经验知识指导时，完成的更加出色。在围棋下法上，AlphaGoZero比之前版本创造出了更多前所未见的下棋方式，为人类对围棋领域的认知打开了新的篇章。某种程度而言，AlphaGoZero展现了机器“机智过人”的一面。

目前来看，AlphaGo中神经网络的成功主要还是基于卷积神经网络，但是下围棋是一个动态持续的过程，因此引入递归神经网络是否能对AlphaGo的性能有所提升也是一个值得思考的问题。AlphaGoZero所蕴含的方法并非是石破天惊、复杂无比，相反这里面的很多方法都早已被前人提出及实现。但是以前，这些方法尤其是深度强化学习等方法，通常只能用来处理规模较小的问题，在大规模问题上常束手无策。AlphaGoZero的成功则刷新了人们对深度强化学习方法的认识，并对深度强化学习领域的研究更加充满期待。深度学习与强化学习的进一步结合相信会引发更多的思想浪潮。深度学习已经在许多重要的领域被证明可以取代人工提取特征得到更优结果。而深度学习在插上了强化学习的翅膀后更是如虎添翼，甚至于有可能颠覆传统人工智能领域，进一步巩固和提升机器学习在人工智能领域的地位。

总结

AlphaGo之父DavidSilver认为，根据最新的实验结果，监督学习能产生当时性能最优的模型，而强化学习可以超越人类已有的知识得到更进一步的提升。只有监督学习确实可以达到令人惊叹的表现，但是强化学习才是超越人类水平的关键。AlphaGo的成功有力的证明了强化学习实现从无到有的强大学习能力，但是这并不意味着通用人工智能领域问题得到了解决。本质上，AlphaGoZero解决的仍是启发式搜索的问题，在搜索的基础上，使用深度强化学习训练出态势评估函数。

就目前而言，AlphaGo尚未展现出类似于在Atari视频游戏中那样普遍适用的泛化性能。因为虽然基于深度强化学习的蒙特卡罗树搜索在回合制游戏上已经取得了成功，但是由于搜索算法与生俱来的搜索时间与空间的开销，或许对回合制类游戏影响不大，但是对实时类游戏的影响却是巨大的，在如同星际争霸II这类实时游戏中，如何解决好时间开销与游戏连续性的矛盾则是一个值得深思的问题。目前为止，DeepMind团队在星际争霸II中使用深度强化学习方法所能达到的效果也与期望相去甚远。因此，通用人工智能问题的研究及解决仍然任重道远。

文章作者

邵坤（博士，自动化所复杂系统管理与控制国家重点实验室）

唐振韬（博士，自动化所复杂系统管理与控制国家重点实验室）

赵冬斌（研究员，自动化所复杂系统管理与控制国家重点实验室）

AlphaGo Zero核心技术：深度强化学习知识资料全集(免费打包下载)

来源： 钱胜胜/Quan 中国科学院自动化研究所

【导读】近日，Google DeepMind在Nature上发表最新论文，介绍了迄今最强最新的版本AlphaGo Zero，不使用人类先验知识，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习，为此，【专知】特别收录整理聚合了关于强化学习的最全知识资料，供大家查看！

先看下Google DeepMind 研究人员David Silver介绍 AlphaGo Zero：

专知 -Deep Reinforcement Learning 最全资料集合：

Nature 论文
Mastering the game of Go without human knowledge
Nature 550, 7676 (2017). doi:10.1038/nature24270
Authors: David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel & Demis Hassabis
网址：https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html
请下载pdf查看！

Mastering the game of Go with deep neural networks and tree search

David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Vedavyas Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy P. Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel, Demis Hassabis:
Nature 529(7587): 484-489 (2016)

Papers

Mastering the Game of Go without Human Knowledge	https://deepmind.com/documents/119/agz_unformatted_nature.pdf
Human level control with deep reinforcement learning	http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Play Atari game with deep reinforcement learning	https://www.cs.toronto.edu/%7Evmnih/docs/dqn.pdf
Prioritized experience replay	https://arxiv.org/pdf/1511.05952v2.pdf
Dueling DQN	https://arxiv.org/pdf/1511.06581v3.pdf
Deep reinforcement learning with double Q Learning	https://arxiv.org/abs/1509.06461
Deep Q learning with NAF	https://arxiv.org/pdf/1603.00748v1.pdf
Deterministic policy gradient	http://jmlr.org/proceedings/papers/v32/silver14.pdf
Continuous control with deep reinforcement learning) (DDPG)	https://arxiv.org/pdf/1509.02971v5.pdf
Asynchronous Methods for Deep Reinforcement Learning	https://arxiv.org/abs/1602.01783
Policy distillation	https://arxiv.org/abs/1511.06295
Control of Memory, Active Perception, and Action in Minecraft	https://arxiv.org/pdf/1605.09128v1.pdf
Unifying Count-Based Exploration and Intrinsic Motivation	https://arxiv.org/pdf/1606.01868v2.pdf
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models	https://arxiv.org/pdf/1507.00814v3.pdf
Action-Conditional Video Prediction using Deep Networks in Atari Games	https://arxiv.org/pdf/1507.08750v2.pdf
Control of Memory, Active Perception, and Action in Minecraft	https://web.eecs.umich.edu/~baveja/Papers/ICML2016.pdf
PathNet	https://arxiv.org/pdf/1701.08734.pdf

Papers for NLP

Coarse-to-Fine Question Answering for Long Documents	https://homes.cs.washington.edu/~eunsol/papers/acl17eunsol.pdf
A Deep Reinforced Model for Abstractive Summarization	https://arxiv.org/pdf/1705.04304.pdf
Reinforcement Learning for Simultaneous Machine Translation	https://www.umiacs.umd.edu/~jbg/docs/2014_emnlp_simtrans.pdf
Dual Learning for Machine Translation	https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation.pdf
Learning to Win by Reading Manuals in a Monte-Carlo Framework	http://people.csail.mit.edu/regina/my_papers/civ11.pdf
Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning	http://people.csail.mit.edu/regina/my_papers/civ11.pdf
Deep Reinforcement Learning with a Natural Language Action Space	http://www.aclweb.org/anthology/P16-1153
Deep Reinforcement Learning for Dialogue Generation	https://arxiv.org/pdf/1606.01541.pdf
Reinforcement Learning for Mapping Instructions to Actions	http://people.csail.mit.edu/branavan/papers/acl2009.pdf
Language Understanding for Text-based Games using Deep Reinforcement Learning	https://arxiv.org/pdf/1506.08941.pdf
End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning	https://arxiv.org/pdf/1606.01269v1.pdf
End-to-End Reinforcement Learning of Dialogue Agents for Information Access	https://arxiv.org/pdf/1609.00777v1.pdf
Hybrid Code Networks: practical and efficient end-to-end dialog control with supervised and reinforcement learning	https://arxiv.org/pdf/1702.03274.pdf
Deep Reinforcement Learning for Mention-Ranking Coreference Models	https://arxiv.org/abs/1609.08667

精选文章

wiki	https://en.wikipedia.org/wiki/Reinforcement_learning
Deep Reinforcement Learning: Pong from Pixels	http://karpathy.github.io/2016/05/31/rl/
CS 294: Deep Reinforcement Learning	http://rll.berkeley.edu/deeprlcourse/
强化学习系列之一:马尔科夫决策过程	http://www.algorithmdog.com/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0-%E9%A9%AC%E5%B0%94%E7%A7%91%E5%A4%AB%E5%86%B3%E7%AD%96%E8%BF%87%E7%A8%8B
强化学习系列之九:Deep Q Network (DQN)	http://www.algorithmdog.com/drl
强化学习系列之三:模型无关的策略评价	http://www.algorithmdog.com/reinforcement-learning-model-free-evalution
【整理】强化学习与MDP	http://www.cnblogs.com/mo-wang/p/4910855.html
强化学习入门及其实现代码	http://www.jianshu.com/p/165607eaa4f9
深度强化学习系列（二）：强化学习	http://blog.csdn.net/ikerpeng/article/details/53031551
采用深度 Q 网络的 Atari 的 Demo： Nature 上关于深度 Q 网络 (DQN) 论文:	http://www.nature.com/articles/nature14236
David视频里所使用的讲义pdf	https://pan.baidu.com/s/1nvqP7dB
什么是强化学习？	http://www.cnblogs.com/geniferology/p/what_is_reinforcement_learning.html
DavidSilver 关于深度确定策略梯度 DPG的论文	http://www.jmlr.org/proceedings/papers/v32/silver14.pdf
Nature 上关于 AlphaGo 的论文：	http://www.nature.com/articles/nature16961
AlphaGo 相关的资源	deepmind.com/research/alphago/
What’s the Difference Between Artificial Intelligence, Machine Learning, and Deep Learning?	https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/
Deep Learning in a Nutshell: Reinforcement Learning	https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-reinforcement-learning/
Bellman equation	https://en.wikipedia.org/wiki/Bellman_equation
Reinforcement learning	https://en.wikipedia.org/wiki/Reinforcement_learning
Mastering the Game of Go without Human Knowledge	https://deepmind.com/documents/119/agz_unformatted_nature.pdf
Reinforcement Learning(RL) for Natural Language Processing(NLP)	https://github.com/adityathakker/awesome-rl-nlp

视频教程

强化学习教程(莫烦)	https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/
强化学习课程 by David Silver	https://www.bilibili.com/video/av8912293/?from=search&seid=1166472326542614796
CS234: Reinforcement Learning	http://web.stanford.edu/class/cs234/index.html
什么是强化学习? (Reinforcement Learning)	https://www.youtube.com/watch?v=NVWBs7b3oGk
什么是 Q Learning (Reinforcement Learning 强化学习)	https://www.youtube.com/watch?v=HTZ5xn12AL4
强化学习-莫烦	https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/
David Silver深度强化学习第1课 - 简介 (中文字幕)	https://www.bilibili.com/video/av9831889/
David Silver的这套视频公开课（Youtube）	https://www.youtube.com/watch?v=2pWv7GOvuf0&amp;amp;amp;amp;list=PL7-jPKtc4r78-wCZcQn5IqyuWhBZ8fOxT
David Silver的这套视频公开课（Bilibili）	http://www.bilibili.com/video/av9831889/?from=search&seid=17387316110198388304
Deep Reinforcement Learning	http://videolectures.net/rldm2015_silver_reinforcement_learning/

Tutorial

Reinforcement Learning for NLP	http://www.umiacs.umd.edu/~jbg/teaching/CSCI_7000/11a.pdf
ICML 2016, Deep Reinforcement Learning tutorial	http://icml.cc/2016/tutorials/deep_rl_tutorial.pdf
DQN tutorial	https://medium.com/@awjuliani/simple-reinforcement-learning-with-tensorflow-part-4-deep-q-networks-and-beyond-8438a3e2b8df#.28wv34w3a

代码

OpenAI Gym	https://github.com/openai/gym
GoogleDeep Mind 团队深度 Q 网络 (DQN) 源码:	http://sites.google.com/a/deepmind.com/dqn/
ReinforcementLearningCode	https://github.com/halleanwoo/ReinforcementLearningCode
reinforcement-learning	https://github.com/dennybritz/reinforcement-learning
DQN	https://github.com/devsisters/DQN-tensorflow
DDPG	https://github.com/stevenpjg/ddpg-aigym
A3C01	https://github.com/miyosuda/async_deep_reinforce
A3C02	https://github.com/openai/universe-starter-agent

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。