伯克利《深度强化学习》更新 | 第四讲:强化学习简介

2019 年 3 月 22 日 AI研习社

AI 研习社获得官方授权,汉化翻译伯克利 CS 294-112 《深度强化学习》,今天更新至第四讲啦~

我们先来一睹为快——

第四讲

强化学习简介

上手视频约 6 分钟

翻译 | 朱海浩  邱忠喜 段小杰

字幕 | 菠萝妹

看完是不是不够过瘾!

点开小组小程序,加入2018秋季CS294-112深度强化学习小组

即可观看完整视频

↓ ↓ ↓

同时,针对这门课程,我们同样开设了微信社群,

回复字幕君(微信:leiphonefansub)

加入该课程小组的截图

我们将你拉入微信群聊

加我时备注“CS294加群”~

  小组介绍          

截止到今日,AI研习社学习2018秋季CS294-112深度强化学习小组成员人数突破 2000+人啦!

在AI研习社,这里有浓厚的学习氛围——


小组成员在这里打卡,记录自己的学习成果,在这里交流笔记心得——


「小组」产品上线后,AI 研习社推出了一系列的激励计划,鼓励各位组员学习视频课程,表现积极的学员还将获得由 AI 研习社提供的福利,这些福利包括但不限于机械键盘、双肩背包以及 AI 研习社定制的「浪中求稳」保温杯。


心动了吗,赶快将“AI研习小组”小程序添加到“我的小程序”吧!随时随地都能学习名校经典课程,和上千位小伙伴们一起,共同进步。


  课程介绍

伯克利 CS 294-112 《深度强化学习》为官方开源最新版本,由伯克利大学该门课程授课讲师 Sergey Levine 授权 AI 研习社翻译。

12 月 20 日开始正式同步更新在 AI 研习社,大约 1 到 2 周更新一次。

该课程主题选择深度增强学习,即紧跟当前人工智能研究的热点,又可作为深度学习的后续方向,值得推荐。


  先修要求

想要学习伯克利 CS 294-112 《深度强化学习》这门课程,学生需要先学习 CS189 或者其他同等学力课程。本课程将假定学生掌握强化学习、数值优化和机器学习的相关背景知识。

如果你对上述主题不是非常了解,那么需要自主学习补充以下知识点:

  • 增强学习和马尔科夫决策过程(MDPs)

MDPs的定义

具体算法:策略迭代和价值迭代

搜索算法

  • 数值最优化方法

梯度下降和随机梯度下降

反向传播算法

  • 机器学习

分类和回归问题:用什么样的损失函数,如何拟合线性或非线性模型

训练/测试误差,过拟合


  视频截图


  译者评价

比较有趣,讲课用很多例子来解释,不是那种光给你一大堆公式概念的,感觉偏重实际应用和前沿技术一点,推荐大家来看。

@周清逸

这门课是基本覆盖了强化学习的主要内容和前沿的研究话题,通过理论到应用例子的讲述,以及五次作业(实际上是七次)的实践练习对经典算法的复现,可以让学生达到在强化学习领域的入门研究水平。重点是免费!课程有中文字幕!有作业参考!不过这门课并不是零门槛,需要上过机器学习课程,最好是还上过深度学习(比如cmu deeplearning),最最好用过tensorflow(因为作业的官方基础代码只有tensorflow版本)。

@朱海浩

侧重于增强学习与深度学习相结合,应用在机器人方面的例子比较多,翻译的话老师语速挺快的,虽然语气词比较多,整体逻辑很清晰。

@段小杰


  课程大纲

第一讲:课程介绍和概览

第二讲:监督学习和模仿学习

第三讲:TensorFlow 和神经网络简述

第四讲:强化学习简介

第五讲:策略梯度简介

第六讲:Actor-Critic 算法简介

第七讲:价值函数介绍

第八讲:高级 Q-学习算法

第九讲:高级策略梯度

第十讲:最优控制和规划

第十一讲:基于模型的强化学习

第十二讲:高级强化学习和图像处理应用

第十三讲:利用模仿优化控制器学习策略

第十四讲:概率和变分推断入门

第十五讲:推断和控制之间的联系

第十六讲:逆向强化学习

第十七讲:探索(上)

第十八讲:探索(下)

第十九讲:迁移学习与多任务学习

第二十讲:元学习

第二十一讲:平行结构和强化学习系统设计

第二十二讲:进阶模仿学习和开放性问题

第二十三讲:客座讲师:Craig Boutilier

第二十四讲:客座讲师:Gregory Kahn

第二十五讲:客座讲师:Quoc Le & Barret Zoph

第二十六讲:客座讲师:Karol Hausman  


AI求职百题斩 · 每日一题


每天进步一点点,长按扫码参与每日一题!



点击【阅读原文】观看第四讲

↓↓↓

登录查看更多
5

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
175+阅读 · 2020年2月1日
MIT新书《强化学习与最优控制》
专知会员服务
269+阅读 · 2019年10月9日
深度强化学习简介
专知
29+阅读 · 2018年12月3日
CMU 深度学习导论更新 | 第四讲:反向传播
雷锋网
5+阅读 · 2018年11月27日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
Arxiv
6+阅读 · 2019年7月29日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
Top
微信扫码咨询专知VIP会员