强化学习算法教程+实战+详细学习规划,GitHub 万星项目!

2019 年 8 月 11 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

鱼羊 发自 凹非寺 
本文转载自:量子位(QbitAI)

自从有了强化学习(RL),AI上能星际争霸,下能雅达利称王,让内行人沉醉,让外行人惊奇。

这里恰有一份标星过万的强化学习资源,既有教程推荐,又有配套练习,网友学了都说好,并且还在实时更新。

入学要求并不高,只需要一些基础的数学和机器学习知识。

清晰的学习路径

想要入门强化学习,一份优质的课程必不可少。

强化学习资源千千万,项目作者 Denny Britz 大力推荐这两个:

David Silver 的强化学习课程
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

以及 Richard Sutton 和 Andrew Barto的《强化学习:简介(第二版)》
http://incompleteideas.net/book/RLbook2018.pdf

p.s. 实测无需魔法

Denny Britz 小哥表示,这两本书几乎涵盖了入门强化学习需要了解的大部分研究论文,基础决定高度,理论知识还是要扎扎实实学起来。

理论有了,可书里并没有算法实现。

别担心,帮人帮到底,送佛送到西,Denny Britz 亲自动手,用 Python,OpenAI Gym 和 Tensorflow 实现了大多数标准强化算法,并把它们都共享了出来,方便大家配合教材食用。

简直太贴心。

在这份万星资源里,每个文件夹都对应着教材的一个或多个章节。除了练习和解决方案之外,每个文件夹下还包含了一系列学习目标,基础概念摘要,以及相关链接。

基于模型的强化学习:使用动态规划的策略迭代和值迭代这一章为例。

这一章配套的是 David Silver RL课程的第三讲,动态编程规划。

首先是学习目标:

  • 了解策略评估和策略改进之间的区别,以及这些流程如何相互作用

  • 理解策略迭代算法

  • 理解值迭代算法

  • 了解动态规划方法的局限性

设定好学习目标,这份教程还替你划了重点概念。

最后,奉上实战演练。

大框架已经搭好,只需专注重点思考如何填空:

文后附标准答案:

实现算法列表

这份教程现在涵盖了以下算法实现。

  • 动态规划策略评估

  • 动态规划策略迭代

  • 动态规划值迭代

  • 蒙特卡洛预测

  • Epslion-Greedy 策略的蒙特卡洛控制

  • 具有重要性抽样的蒙特卡洛非策略控制

  • SARSA(策略 TD 学习)

  • Q学习(非策略 TD 学习)

  • 线性函数逼近的Q学习

  • 雅达利游戏的深度Q学习

  • 雅达利游戏的双重深度Q学习

  • 优先经验回放的深度Q学习(施工中)

  • 策略梯度:基线强化

  • 策略梯度:基线Actor-Critic 算法

  • 策略梯度:具有连续动作空间的基线 Actor-Critic 算法

  • 连续动作空间的确定性策略梯度(施工中)

  • DDPG(施工中)

  • 异步优势 Actor-Critic 算法(A3C)

学习路径如此清晰,这样的优质资源,不Mark一下吗?

传送门:
https://github.com/dennybritz/reinforcement-learning

重磅!CVer-强化学习交流群成立啦


扫码添加CVer助手,可申请加入CVer-强化学习交流群,同时还可以加入目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注:研究方向+地点+学校/公司+昵称(如强化学习+上海+上交+卡卡)

▲长按加群


▲长按关注我们

麻烦给我一个在看

登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
332+阅读 · 2020年3月17日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
16+阅读 · 2018年10月11日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
26+阅读 · 2018年8月17日
关于强化学习(附代码,练习和解答)
深度学习
35+阅读 · 2018年1月30日
【强化学习】强化学习入门以及代码实现
产业智能官
18+阅读 · 2017年9月4日
Financial Time Series Representation Learning
Arxiv
10+阅读 · 2020年3月27日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
4+阅读 · 2018年2月13日
VIP会员
相关VIP内容
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
332+阅读 · 2020年3月17日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
相关论文
Financial Time Series Representation Learning
Arxiv
10+阅读 · 2020年3月27日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
4+阅读 · 2018年2月13日
Top
微信扫码咨询专知VIP会员