为什么强化学习会成为当下机器学习最火的研究领域？

2018 年 6 月 15 日 机器学习算法与Python学习

美国首位人工智能协会（AAAI）华人Fellow，国际顶级学术会议KDD、IJCAI等大会主席，香港科技大学杨强教授曾说：“深度学习是昨天，强化学习是今天。”

现在但凡写人工智能的文章，必提AlphaGo。因为AlphaGo在围棋人机大战中里程碑式的胜利，人工智能迎来了新的春天，同时，正是AlphaGo的问世，将强化学习的研究推向了新的高度，使得强化学习成为当下机器学习最火热的研究领域。

强化学习（或者增强学习）本质是解决决策问题，针对一个具体问题得到一个最优的策略，使得在该策略下获得的奖励最大。它的思想与人类的学习过程有很大的相似性，是一种基于环境反馈而做决策的通用框架，因此被认为是迈向通用人工智能的重要途径。

随着数据处理能力的逐步提升以及深度学习的发展，强化学习解决复杂问题的能力也得到了较大的提高，除应用于机器人控制、无人驾驶、游戏博弈，还应用于制造业、电商广告推荐等与我们生活息息相关的领域中。

虽然强化学习已经引起国内外足够的关注，但由于中文资料少之又少，国内鲜有高校开设系统性的课程，同时缺乏相互交流的圈子。深蓝学院联合中科院自动化所、清华大学的老师和研究生，打磨推出『强化学习理论与实践』在线课程。课程通过理论与代码实践，让大家掌握算法的核心思想，并安排Project大作业，体验强化学习的实际应用；同时，建立课程答疑群，便于相互交流学习。

课程团队

张启超 中科院自动化所复杂系统管理与控制国家重点实验室助理研究员，中科院自动化所博士，研究方向为强化学习、自适应动态规划及博弈论。在顶级期刊和会议TNNLS、TCYB、IEEE CIM、WCCI上以第一作者身份发表十多篇文章，获得中科院院长优秀奖、北京市优秀毕业生等，团队在2017中国智能车未来挑战赛中获得两项冠军（离线测试比赛前方车辆检测、前方车辆距离监测）。

陈达贵 清华大学自动化系控制理论研究所硕士生，主要研究方向是深度强化学习的理论和计算图形学，具有丰富的深度学习和深度强化学习实践经验。

课程内容

第1章概述

1.1 强化学习问题

1.2 强化学习的组成

1.3 智能体的组成

1.4 强化学习的分类

1.5 强化学习中的关键概念

1.6 编程实践：环境和随机策略

第2章 马尔可夫决策过程

2.1 马尔可夫过程

2.2 马尔可夫奖励过程

2.3 有限马尔可夫决策过程

2.4 马尔可夫决策过程的引申

2.5 编程实践：马尔可夫决策过程

第3章动态规划

3.1 动态规划简介

3.2 策略评价

3.3 策略提升

3.4 策略迭代

3.5 值迭代

3.6 动态规划引申

3.7 编程实践：在Gridworld上的策略迭代和值迭代

第4章无模型方法一：蒙特卡洛

4.1 无模型方法简介

4.2 On-policy和Off-policy

4.3 蒙特卡洛方法简介

4.4 蒙特卡洛评价

4.5 蒙特卡洛优化

4.6 增量算法

4.7 编程实践：蒙特卡洛方法

第5章无模型方法二：时间差分

5.1 时间差分简介

5.2 时间差分评价

5.3 SARSA

5.4 Q学习

5.5 编程实践：TD算法

第6章无模型方法三：多步自举

6.1 多步自举简介

6.2 TD(lambda)

6.3 SARSA(lambda)

6.4 off-policy下的多步自举

6.5 编程实践：n-step TD

第7章函数近似与深度网络

7.1 函数近似

7.2 梯度下降算法

7.3 深度学习基础

7.4 编程实践：深度学习框架

第8章策略梯度算法

8.1 策略梯度简介

8.2 策略梯度定理

8.3 REINFORCE规则

8.4 Actor-Critic算法

8.5 TRPO算法

8.6 编程实践：AC算法

第9章深度强化学习

9.1 DQN

9.2 A3C

9.3 DDPG

9.4 PPO

9.5 编程实践：Atari游戏

第10章基于模型的强化学习

10.1 基于模型的强化学习简介

10.2 基于模型的规划

10.3 Dyna算法

10.4 基于仿真的搜索

第11章前景与大作业

11.1 探索和利用

11.2 基于模型的强化学习方法

11.3 分层强化学习

11.4 反强化学习和示范学习

11.5 多智能体强化学习

11.6 记忆和注意力机制

11.7 元学习

11.8 Project大作业

课程目标

本课程主要面向初学者，讲述强化学习的基础理论，介绍强化学习的基本应用，给学员建立系统的强化学习理论体系。同时，本课程会带领学员了解其相关的最新技术，解决复杂环境下的强化学习问题。

课程特色

1、课程学习结束，根据每次作业的分数，评选优秀学员；

2、优秀学员获得深蓝学院颁发的证书；

3、优秀学员推荐至企业实习或者就业，有机会获得旷视科技（Face++）2000元奖学金。

先修课程

高等数学、线性代数、概率论、Python等

报名方式

前200位报名的同学可添加助教欣然微信（shenlan-xinran）领取100元的早鸟报名优惠券。

点击“阅读原文”，了解旷视（Face++）奖学金

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

最新《深度学习自动驾驶》技术综述论文，28页pdf

专知会员服务

155+阅读 · 2020年6月14日

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

专知会员服务

162+阅读 · 2020年6月14日

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

专知会员服务

317+阅读 · 2020年5月28日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知会员服务

231+阅读 · 2020年4月28日

【Texas 大学】强化学习领域的课程学习:一个框架和综述

专知会员服务

72+阅读 · 2020年3月22日

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知会员服务

147+阅读 · 2019年12月25日

清华大学张敏老师，个性化推荐的基础与趋势，145页ppt

专知会员服务

87+阅读 · 2019年11月27日

强化学习的未来——第一部分

AI研习社

9+阅读 · 2019年1月2日

【机器学习】机器学习：未来十年研究热点

产业智能官

16+阅读 · 2018年11月4日

OpenAI强化学习实战

炼数成金订阅号

9+阅读 · 2018年5月14日

为什么机器人企业的算法工程师需要ROS开发经验

算法与数学之美

6+阅读 · 2018年3月22日

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

公开课 | 强化学习之基础入门

AI100

6+阅读 · 2018年1月7日

【干货】机器学习和深度学习概念入门（下）

机器学习研究会

6+阅读 · 2017年12月31日

如何用 3 个月零基础入门机器学习？

AI研习社

6+阅读 · 2017年9月27日

阿里云 Top10 天池科学家推出机器学习实践课程限时优惠+赠送500G资料

数据挖掘入门与实战

3+阅读 · 2017年8月18日

如何成为一名人工智能算法高手？

算法与数学之美

4+阅读 · 2017年8月3日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Finding Needles in a Moving Haystack: Prioritizing Alerts with Adversarial Reinforcement Learning

Arxiv

3+阅读 · 2019年6月20日

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Dialogue Natural Language Inference

Arxiv

7+阅读 · 2018年11月1日

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

Arxiv

4+阅读 · 2018年7月30日

Viewpoint Estimation-Insights & Model

Arxiv

3+阅读 · 2018年7月3日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

Deep Gaussian Embedding of Graphs: Unsupervised Inductive Learning via Ranking

Arxiv

5+阅读 · 2018年2月27日

Activation Maximization Generative Adversarial Nets

Arxiv

5+阅读 · 2018年1月30日

VIP会员

为什么强化学习会成为当下机器学习最火的研究领域？

相关内容

知识荟萃

更多