关于强化学习(附代码,练习和解答)

2018 年 1 月 30 日 深度学习 WILDML

为什么学习强化学习

强化学习是我最兴奋的领域之一。在过去的几年中,像从原始像素学习Atari游戏掌握Go 游戏这样的令人惊叹的结果得到了很多关注,但RL也被广泛用于机器人,图像处理和自然语言处理。

强化学习和深度学习技术的结合非常好。两个领域都相互影响。在强化学习方面深度神经网络被用作函数逼近器来学习好的表示,例如处理Atari游戏图像或理解Go的棋盘状态。另一方面,RL技术正在成为通常由深度学习解决的监督问题。例如,RL技术被用来实现图像处理中的注意力机制,或者优化会话界面和神经翻译系统的长期回报。最后,由于强化学习是关于做出最佳决策的,它与人类心理学和神经科学(以及许多其他领域)有一些非常有趣的相似之处。

有很多开放性的问题和基础研究的机会,我想我们将在未来几年看到多个强化学习的突破。还有什么比教书机玩星际争霸和Doom更有趣?

如何学习强化学习

那里有很多优秀的强化学习资源。两个我最推荐的是:

  • David Silver的强化学习课程

  • 理查德·萨顿和安德鲁·巴托的“强化学习:简介”(第二版)一书。

后者仍在进行中,但已经完成了80%。这门课程是基于这本书,所以两者在一起工作得很好。事实上,这两个涵盖了你最需要了解的大部分最近的研究论文。先决条件是基础数学和机器学习的一些知识。

这涵盖了理论。但是实际资源呢?实际上实现本书/课程中涵盖的算法呢?这就是这篇文章和Github仓库的介绍。我试图用Python,OpenAI Gym和Tensorflow 来实现大部分的标准增强算法我把它们分成几章(简要概述)和练习和解答,以便你可以用它们来补充上面的理论材料。所有这些都在Github存储库中

https://github.com/dennybritz/reinforcement-learning

一些更耗时的算法仍在进行中,所以请随时做出贡献。我会在我实施这个帖子的时候更新这个帖子。

目录

  • RL问题介绍,OpenAI体育馆

  • MDP和Bellman方程

  • 动态规划:基于模型的RL,策略迭代和值迭代

  • 蒙特卡罗模型预测与控制

  • 时间差分无模型预测与控制

  • 函数逼近

  • 深度学习(WIP)

  • 政策梯度方法(WIP)

  • 学习与规划(WIP)

  • 探索和开发(WIP)

已实现的算法列表

  • 动态编程策略评估

  • 动态编程策略迭代

  • 动态规划值迭代

  • 蒙特卡洛预测

  • 蒙特卡洛控制与Epsilon-Greedy政策

  • 蒙特卡洛关闭政策控制与重要性抽样

  • SARSA(政策TD学习)

  • Q-Learning(关闭政策TD学习)

  • 用线性函数逼近的Q学习

  • 雅达利游戏的深度Q学习

  • 雅达利游戏的双深度学习

  • 深度Q学习与优先体验重播(WIP)

  • 政策梯度:增强基线

  • 政策梯度:演员对基线的评论

  • 策略梯度:连续行为空间基准的演员评论家

  • 持续作用空间的确定性政策梯度(WIP)

  • 深度确定性政策梯度(DDPG)(WIP)

  • 异步优势演员评论员(A3C)(WIP)

原文出处:http://www.wildml.com/2016/10/learning-reinforcement-learning/

登录查看更多
35

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
《深度学习》圣经花书的数学推导、原理与Python代码实现
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
【强化学习】强化学习入门以及代码实现
产业智能官
18+阅读 · 2017年9月4日
技术 | 强化学习入门以及代码实现
AI100
51+阅读 · 2017年8月26日
Image Segmentation Using Deep Learning: A Survey
Arxiv
43+阅读 · 2020年1月15日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
《深度学习》圣经花书的数学推导、原理与Python代码实现
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
相关资讯
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
【强化学习】强化学习入门以及代码实现
产业智能官
18+阅读 · 2017年9月4日
技术 | 强化学习入门以及代码实现
AI100
51+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员