为什么强化学习会成为当下机器学习最火的研究领域?

2018 年 6 月 15 日 机器学习算法与Python学习

美国首位人工智能协会(AAAI)华人Fellow,国际顶级学术会议KDD、IJCAI等大会主席,香港科技大学杨强教授曾说:“深度学习是昨天,强化学习是今天。”

现在但凡写人工智能的文章,必提AlphaGo。因为AlphaGo在围棋人机大战中里程碑式的胜利,人工智能迎来了新的春天,同时,正是AlphaGo的问世,将强化学习的研究推向了新的高度,使得强化学习成为当下机器学习最火热的研究领域。

强化学习(或者增强学习)本质是解决决策问题,针对一个具体问题得到一个最优的策略,使得在该策略下获得的奖励最大。它的思想与人类的学习过程有很大的相似性,是一种基于环境反馈而做决策的通用框架,因此被认为是迈向通用人工智能的重要途径。

随着数据处理能力的逐步提升以及深度学习的发展,强化学习解决复杂问题的能力也得到了较大的提高,除应用于机器人控制、无人驾驶、游戏博弈,还应用于制造业、电商广告推荐等与我们生活息息相关的领域中。

虽然强化学习已经引起国内外足够的关注,但由于中文资料少之又少,国内鲜有高校开设系统性的课程,同时缺乏相互交流的圈子。深蓝学院联合中科院自动化所、清华大学的老师和研究生,打磨推出『强化学习理论与实践』在线课程。课程通过理论与代码实践,让大家掌握算法的核心思想,并安排Project大作业,体验强化学习的实际应用;同时,建立课程答疑群,便于相互交流学习。


课程团队

张启超   中科院自动化所复杂系统管理与控制国家重点实验室助理研究员,中科院自动化所博士,研究方向为强化学习、自适应动态规划及博弈论。在顶级期刊和会议TNNLS、TCYB、IEEE CIM、WCCI上以第一作者身份发表十多篇文章,获得中科院院长优秀奖、北京市优秀毕业生等,团队在2017中国智能车未来挑战赛中获得两项冠军(离线测试比赛前方车辆检测、前方车辆距离监测)。

陈达贵   清华大学自动化系控制理论研究所硕士生,主要研究方向是深度强化学习的理论和计算图形学,具有丰富的深度学习和深度强化学习实践经验。


课程内容

第1章 概述

1.1 强化学习问题

1.2 强化学习的组成

1.3 智能体的组成

1.4 强化学习的分类

1.5 强化学习中的关键概念

1.6 编程实践:环境和随机策略

第2章 马尔可夫决策过程

2.1 马尔可夫过程

2.2 马尔可夫奖励过程

2.3 有限马尔可夫决策过程

2.4 马尔可夫决策过程的引申

2.5 编程实践:马尔可夫决策过程

第3章 动态规划

3.1 动态规划简介

3.2 策略评价

3.3 策略提升

3.4 策略迭代

3.5 值迭代

3.6 动态规划引申

3.7 编程实践:在Gridworld上的策略迭代和值迭代

第4章 无模型方法一:蒙特卡洛

4.1 无模型方法简介

4.2 On-policy和Off-policy

4.3 蒙特卡洛方法简介

4.4 蒙特卡洛评价

4.5 蒙特卡洛优化

4.6 增量算法

4.7 编程实践:蒙特卡洛方法

第5章 无模型方法二:时间差分

5.1 时间差分简介

5.2 时间差分评价

5.3 SARSA

5.4 Q学习

5.5 编程实践:TD算法

第6章 无模型方法三:多步自举

6.1 多步自举简介

6.2 TD(lambda)

6.3 SARSA(lambda)

6.4 off-policy下的多步自举

6.5 编程实践:n-step TD

第7章 函数近似与深度网络

7.1 函数近似

7.2 梯度下降算法

7.3 深度学习基础

7.4 编程实践:深度学习框架

第8章 策略梯度算法

8.1 策略梯度简介

8.2 策略梯度定理

8.3 REINFORCE规则

8.4 Actor-Critic算法

8.5 TRPO算法

8.6 编程实践:AC算法

第9章 深度强化学习

9.1 DQN

9.2 A3C

9.3 DDPG

9.4 PPO

9.5 编程实践:Atari游戏

第10章 基于模型的强化学习

10.1 基于模型的强化学习简介

10.2 基于模型的规划

10.3 Dyna算法

10.4 基于仿真的搜索

第11章 前景与大作业

11.1 探索和利用        

11.2 基于模型的强化学习方法

11.3 分层强化学习      

11.4 反强化学习和示范学习

11.5 多智能体强化学习  

11.6 记忆和注意力机制

11.7 元学习

11.8 Project大作业


课程目标

本课程主要面向初学者,讲述强化学习的基础理论,介绍强化学习的基本应用,给学员建立系统的强化学习理论体系。同时,本课程会带领学员了解其相关的最新技术,解决复杂环境下的强化学习问题。


课程特色

1、课程学习结束,根据每次作业的分数,评选优秀学员;

2、优秀学员获得深蓝学院颁发的证书; 

3、优秀学员推荐至企业实习或者就业,有机会获得旷视科技(Face++)2000元奖学金。


先修课程

高等数学、线性代数、概率论、Python等


报名方式

200位报名的同学可添加助教欣然微信(shenlan-xinran)领取100元的早鸟报名优惠券。


点击“阅读原文”,了解旷视(Face++)奖学金

登录查看更多
6

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
77+阅读 · 2020年6月20日
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
152+阅读 · 2020年6月14日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
70+阅读 · 2020年3月22日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
168+阅读 · 2020年2月8日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
85+阅读 · 2019年11月27日
强化学习的未来——第一部分
AI研习社
9+阅读 · 2019年1月2日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
OpenAI强化学习实战
炼数成金订阅号
8+阅读 · 2018年5月14日
为什么机器人企业的算法工程师需要ROS开发经验
算法与数学之美
6+阅读 · 2018年3月22日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
公开课 | 强化学习之基础入门
AI100
6+阅读 · 2018年1月7日
【干货】机器学习和深度学习概念入门(下)
机器学习研究会
6+阅读 · 2017年12月31日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
如何成为一名人工智能算法高手?
算法与数学之美
4+阅读 · 2017年8月3日
Arxiv
13+阅读 · 2020年4月12日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
6+阅读 · 2018年11月1日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
专知会员服务
77+阅读 · 2020年6月20日
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
152+阅读 · 2020年6月14日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
70+阅读 · 2020年3月22日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
168+阅读 · 2020年2月8日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
85+阅读 · 2019年11月27日
相关资讯
强化学习的未来——第一部分
AI研习社
9+阅读 · 2019年1月2日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
OpenAI强化学习实战
炼数成金订阅号
8+阅读 · 2018年5月14日
为什么机器人企业的算法工程师需要ROS开发经验
算法与数学之美
6+阅读 · 2018年3月22日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
公开课 | 强化学习之基础入门
AI100
6+阅读 · 2018年1月7日
【干货】机器学习和深度学习概念入门(下)
机器学习研究会
6+阅读 · 2017年12月31日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
如何成为一名人工智能算法高手?
算法与数学之美
4+阅读 · 2017年8月3日
Top
微信扫码咨询专知VIP会员