资源 | 《深度强化学习》手稿开放了！

2018 年 10 月 24 日 THU数据派

来源：机器之心

本文约2500字，建议阅读5分钟。

本文为你概述了在深度强化学习（Deep Reinforcement Learning）方面的进展。

一年前，我们发布了加拿大阿尔伯塔大学计算机系博士 Yuxi Li 的深度强化学习综述论文，该论文概述了在深度强化学习（Deep Reinforcement Learning）方面喜人的进展。而这本刚上线的《深度强化学习》手稿对前面的版本《深度强化学习综述》做了大规模的改进；从一年多前的 70 页扩充到现在的 150 页。本文对此手稿进行了介绍。

《深度强化学习》希望帮助初学者了解深度强化学习，也希望为教授、研究人员、学生、工程师、管理人员、投资者等广大读者提供一份深度强化学习参考资料。

她在描绘深度强化学习领域大方向的同时兼顾了许多技术细节。她在历史背景中讨论最新进展。她努力回答了下面三个问题：

为什么用深度学习？
最前沿的发展有哪些？
有什么问题及解决方案？手稿中难免有不足乃至错误之处，真诚欢迎宝贵建议和意见。

这个博客收集了很多深度强化学习的资料：

https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f.

《深度强化学习》讨论了六个核心元素 (core elements): 值函数 (value function)、策略 (policy)、奖赏 (reward)、模型 (model)、探索与利用 (exploration vs. exploitation)、以及表征 (representation);

六个重要机制 (important mechanisms)：注意力与存储机制 (attention and memory)、无监督学习 (unsupervised learning)、层次强化学习 (hierarchical RL)、多智能体强化学习 (multi-agent RL)、关系强化学习 (relational RL)、和元学习 (learning to learn);

以及十二个应用场景 (applications)：游戏 (games)、机器人学 (robotics)、自然语言处理 (natural language processing, NLP)、计算机视觉 (computer vision)、金融 (finance)、商务管理 (business management)、医疗 (healthcare)、教育 (education)、能源 (energy)、交通 (transportation)、计算机系统 (computer systems)、以及科学、工程和艺术 (science, engineering, and art)。

深度强化学习最近取得了世人瞩目的成绩，比如，应用于雅达利游戏 (Atari games) 上的 DQN 算法吹响了这波深度强化学习前进的号角；在计算机围棋 (AlphaGo/AlphaGo Zero) 和德州扑克 (DeepStack) 上面取得了人工智能里程碑级别的成就。深度强化学习有很多新颖的算法被研发出来，比如，DQN、 A3C、TRPO、PPO、DDPG、Trust-PCL、GPS、UNREAL, 等等。

深度强化学习也被应用于很多很广的方向，比如，夺旗游戏 (Capture the Flag)、刀塔 (Dota 2)、星际争霸 (StarCraft II)、机器人学、动画人物模拟、智能对话、神经元网络结构设计、机器学习自动化、数据中心降温系统、推荐系统、数据扩充、模型压缩、组合优化、程序合成、定理证明、医学成像、音乐合成、化学逆合成，等等。

这个博客收集了很多强化学习的应用场景：

https://medium.com/@yuxili/rl-applications-73ef685c07eb

什么情况下强化学习会有帮助？答案是：如果一个问题可以被描述成或转化成序贯决策 (sequential decision making) 问题，可以构造出强化学习需要用的状态 (state)、动作 (action)、可能还有奖赏 (reward) 等元素的时候。有时候一个问题可以用强化学习解决，但这个问题从表面上看可能不像强化学习问题。笼统地说，如果一个问题中包含人工设计的某种“策略」，那么强化学习就有可能发挥作用，自动化并且优化这些策略。创造性会在核心元素、重要机制、应用场景等方面进一步向前推动深度强化学习的发展。

深度强化学习虽然已经取得了很多傲人的成绩，但是，她也有很多问题亟需解决，比如成绩分配 (credit assignment), 稀疏奖赏 (sparse reward), 采样效率 (sample efficiency), 不稳定性 (instability), 发散性 (divergence), 可解释性 (interpretability), 安全性 (safety)，等等；甚至可复制性 (reproducibility) 仍然是一个问题。

《深度强化学习》提出了六个研究方向，同时作为挑战和机遇。应该提到的是，在这些方向，已经有了一些进展，比如，Dopamine、TStarBots、 unsupervised video object segmentation for deep RL、generative query network、neural-symbolic learning, universal planning networks, causal InfoGAN, meta-gradient RL, 等等。(这些进展的参考资料请参阅英文原版，见文末。) 这些方向的发展，会大幅度促进强化学习乃至人工智能的发展。

系统地比较深度强化学习算法
“解决”多智能体问题
基于实体 (entities) 学习，而不只是基于原始数据学习
为强化学习设计最优的表征形式
自动化强化学习 (AutoRL)
研发强化学习杀手级应用

希望强化学习可以与人工智能深度结合，在端到端 (end-to-end) 的学习方式中加入更多智能去完成从原始输入到决策的设计工作、加入知识、加入常识、以更高效、更容易理解的方式去学习、同时避免犯显然的错误；而不是像以前深度学习那样以黑盒子的方式学习。

深度学习和强化学习分别于 2013 年和 2017 年被《麻省理工学院科技评论》评选为十项突破性技术之一；她们会在通向强人工智能的道路上发挥关键作用。David Silver 提出了一个假设：人工智能=强化学习+深度学习。深度学习和强化学习都会进一步繁荣发展。深度学习正在经历爆炸性的大发展。而现在正是培育、教育、引领强化学习市场的大好时机。

深度学习在这次第三波人工智能的蓬勃发展中，会发挥越来越深远的影响；我们也在深度学习的很多成就中看到了她的作用。强化学习提供更通用的学习和决策模式；她会深远影响深度学习、机器学习、乃至人工智能的进一步发展。

强化学习时代马上就来。让我们做好准备！

欢迎阅读本文的英文版，Introducing Deep Reinforcement Learning, https://medium.com/@yuxili/deeprl-6c8c48b6489b; 里面包含了大量的超链接。

欢迎下载阅读《深度强化学习》，

Deep Reinforcement Learning, arXiv 地址：https://arxiv.org/abs/1810.06339

登录查看更多

相关内容

深度强化学习

关注 154

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

多智能体深度强化学习的若干关键科学问题

专知会员服务

194+阅读 · 2020年5月24日

最新《智能交通系统的深度强化学习》综述论文，22页pdf

专知会员服务

188+阅读 · 2020年5月5日

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日