关于强化学习（附代码，练习和解答）

2018 年 1 月 30 日 深度学习 WILDML

为什么学习强化学习

强化学习是我最兴奋的领域之一。在过去的几年中，像从原始像素学习Atari游戏和掌握Go 游戏这样的令人惊叹的结果得到了很多关注，但RL也被广泛用于机器人，图像处理和自然语言处理。

强化学习和深度学习技术的结合非常好。两个领域都相互影响。在强化学习方面深度神经网络被用作函数逼近器来学习好的表示，例如处理Atari游戏图像或理解Go的棋盘状态。另一方面，RL技术正在成为通常由深度学习解决的监督问题。例如，RL技术被用来实现图像处理中的注意力机制，或者优化会话界面和神经翻译系统的长期回报。最后，由于强化学习是关于做出最佳决策的，它与人类心理学和神经科学（以及许多其他领域）有一些非常有趣的相似之处。

有很多开放性的问题和基础研究的机会，我想我们将在未来几年看到多个强化学习的突破。还有什么比教书机玩星际争霸和Doom更有趣？

如何学习强化学习

那里有很多优秀的强化学习资源。两个我最推荐的是：

David Silver的强化学习课程
理查德·萨顿和安德鲁·巴托的“强化学习：简介”（第二版）一书。

后者仍在进行中，但已经完成了80％。这门课程是基于这本书，所以两者在一起工作得很好。事实上，这两个涵盖了你最需要了解的大部分最近的研究论文。先决条件是基础数学和机器学习的一些知识。

这涵盖了理论。但是实际资源呢？实际上实现本书/课程中涵盖的算法呢？这就是这篇文章和Github仓库的介绍。我试图用Python，OpenAI Gym和Tensorflow 来实现大部分的标准增强算法。我把它们分成几章（简要概述）和练习和解答，以便你可以用它们来补充上面的理论材料。所有这些都在Github存储库中。

https://github.com/dennybritz/reinforcement-learning

一些更耗时的算法仍在进行中，所以请随时做出贡献。我会在我实施这个帖子的时候更新这个帖子。