《强化学习与控制》是一门由清华大学智能驾驶课题组李升波教授亲自讲授的强化学习课程,该课程总共包含11讲,以理论基础与算法设计融合的方式介绍了RL的框架体系,从优化角度梳理了直接法与间接法,带模型与免模型等类别,并对典型算法原理和特性进行了分析和总结,是一门兼顾基础入门、进阶提升的强化学习课程。

一、关于课题组

智能驾驶课题组(iDLab, Intelligent Driving Lab) 面向下一代机器学习和自动控制的交叉理论探索,聚焦智能网联汽车和驾驶辅助系统的核心技术研发,进一步提升汽车的智能性、安全性和节能性。 http://www.idlab-tsinghua.com/thulab/labweb/index.html

二、关于主讲老师:李升波教授

李升波,清华大学长聘教授,博导,车辆学院副院长。留学于斯坦福大学,密歇根大学和加州伯克利大学。从事自动驾驶、智能汽车、强化学习、最优控制等研究。发表论文110余篇,引用>8500次,H因子45。入选IEEE高关注度及封面论文3篇,ESI高引10篇(学科前1%),学术会议最佳论文奖8次。获中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。入选国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、中国汽车行业优秀青年科技人才奖、首届北京市基金委杰青、清华大学教师学术新人奖等。担任AI国际评测MLPerf自动驾驶咨询委员会委员、IEEE智能交通系统学会的全球理事会委员、IEEE Trans on ITS副主编等。

三、关于《强化学习与控制》课程

目前,人工智能的快速崛起正重塑人类社会的各个领域,有望引导工业文明进入新一轮革命浪潮。以道路交通为例,汽车的智能化变革促使整个行业发生了翻天覆地的变化,包括驾驶辅助、自动驾驶、云控协同等一系列新技术如雨后春笋般涌现,它们在提升地面车辆行驶性能的同时,也为解决交通事故、排放污染、城市拥堵等问题提供了一条可行的途径。

以模仿人类大脑学习机制为原理的强化学习(RL,Reinforcement Learning)正迅速进入人们的视野,它为大规模复杂系统的学习及动态系统的高实时在线控制提供了一套极具前景的解决方案。一个引人注目的成功案例是以Alpha Go为代表的围棋智能:它利用深度强化学习算法实现围棋智能的自我进化,自我超越,打败人类最好的专业棋手。尽管强化学习具有优异的潜在优势,但是该方法的工程应用尚属于起步阶段。

《强化学习与控制》这一门课程包括11节。

第1讲介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。

第2讲介绍RL的基础知识,包括定义概念、自洽条件、最优性原理问题架构等。

第3讲介绍免模型学习的蒙特卡洛法,包括Monte Carlo估计,On-policy/off-policy,重要性采样等。

第4讲介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。

第5讲介绍带模型学习的动态规划法,包括策略迭代、值迭代、收敛性原理等。

第6讲介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。

第7讲介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。

第8讲介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。

第9讲介绍带模型的强化学习,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。

第10讲介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系

第11讲介绍RL的各类拾遗,包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。

成为VIP会员查看完整内容
0
36

相关内容

【导读】佛罗里达大学电子与计算机工程系教授Sean Meyn撰写的新书稿《强化学习与控制系统》,重点讲述了与强化学习最相关的控制基础,以及基于这些基础的RL算法设计的大量工具。

Sean Meyn,佛罗里达大学电子与计算机工程系教授兼Robert C. Pittman杰出学者主席,认知与控制实验室主任,佛罗里达可持续能源研究所所长。Sean于1982年获得加利福尼亚大学洛杉矶分校数学学士学位,于1987年获得麦吉尔大学电子工程博士学位。他的学术研究兴趣包括决策和控制的理论与应用,随机过程和优化。他在这些主题上的研究获得了许多奖项,并且是IEEE会士。

http://www.meyn.ece.ufl.edu/

为了定义强化学习(RL),首先需要定义自动控制。例如,在你的日常生活中,可能包括你的汽车巡航控制,你的空调恒温器,冰箱和热水器,以及现代的衣物烘干机的决策规则。有收集数据的传感器,有收集数据以了解世界状态的计算机”(汽车以正确的速度行驶吗?毛巾还湿吗?),根据这些测量结果,由计算机驱动的算法会发出命令来调整需要调整的东西:油门、风扇速度、加热盘管电流,或者……更令人兴奋的例子包括太空火箭、人造器官和微型机器人来进行手术。RL的目标是真正自动的自动控制:没有任何物理学或生物学或医学知识,RL算法调整自己成为一个超级控制器: 最平稳的飞行进入太空,和最专业的微型外科医生! 这个梦想在大多数应用中肯定是遥不可及的,但最近的成功故事鼓舞了工业界、科学家和新一代学生。继2015年击败欧洲围棋冠军樊麾之后,DeepMind的AlphaGo再次刷新了世界纪录。不久之后的新闻是令人震惊的AlphaZero续集,它在“没有任何专家帮助的情况下”自学下国际象棋和围棋。这在现在看来已经不是什么新鲜事了,似乎每个月都会有新的突破。

今天的强化学习有两个同等重要的基础: 1. 最优控制:两个最著名的RL算法,TD-和q -学习,都是关于逼近最优控制的核心价值函数。2. 统计和信息理论。RL中的loration是本书的一大焦点,它强调了最优控制的几何性质,以及为什么创建可靠的学习算法并不困难。我们不会忽视第二个基础: 动机和成功的启发式将在不深入研究理论的情况下进行解释。读者将学到足够的知识,开始尝试自制的计算机代码,并拥有一个大的算法设计选择库。在完成这本书的一半之前,我希望学生能对为什么这些算法被期望是有用的以及为什么它们有时会失败有一个扎实的理解。

本书的重点是与强化学习最相关的控制基础,以及基于这些基础的RL算法设计的大量工具。

成为VIP会员查看完整内容
0
65

车联网是汽车、电子、信息通信、交通运输和交通管理等行业深度融合的新型产业形态,是 5G、人工智能等新一代信息通信技术在汽车、交通等行业应用的重要体现。自动驾驶是汽车智能化、网联化发展的核心应用,也是车联网部署发展的核心服务。我国在车联网技术创新、应用实践、产业生态构建等方面已经走在了世界前列,将有利于探索实现一条具有我国特色的网联自动驾驶发展路径。

本文聚焦车联网支持实现自动驾驶应用,从“协同感知、协同决策、协同控制”等不同环节,重点研究分析网联需求、典型应用场景、体系架构和核心关键技术。在此基础上,总结提炼网联自动驾驶发展面临的挑战,包括技术融合、基础设施建设以及商业运营等方面。最终以协同发展总结全文,希望我国能抓住难得的历史发展机遇,坚持网联自动驾驶的协同发展路径,影响形成全球广泛认同。

http://www.caict.ac.cn/kxyj/qwfb/bps/202012/P020201215382968589778.pdf

成为VIP会员查看完整内容
0
52

自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为:监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210103&flag=1

成为VIP会员查看完整内容
0
28
小贴士
相关主题
相关资讯
分布式智能计算系统前沿
中国计算机学会
10+阅读 · 2019年10月8日
重磅发布|清华大学创新领军工程博士长三角项目今年正式启动
清华大学研究生教育
5+阅读 · 2019年9月2日
【智能控制】中国智能控制40年
产业智能官
3+阅读 · 2018年11月28日
大讲堂 | 深度强化学习在电商推荐中的应用
AI研习社
6+阅读 · 2018年11月8日
为什么强化学习会成为当下机器学习最火的研究领域?
机器学习算法与Python学习
4+阅读 · 2018年6月15日
公开课 | 强化学习之基础入门
AI100
5+阅读 · 2018年1月7日
清华大学智能驾驶团队,深入剖析无人驾驶关键技术
算法与数据结构
3+阅读 · 2017年12月29日
李克强:智能车辆运动控制研究综述
厚势
8+阅读 · 2017年10月17日
干货 | KDD2017现场:中国论坛直击(讲座完整PPT)
大数据文摘
3+阅读 · 2017年8月16日
相关论文
Neural Module Networks for Reasoning over Text
Nitish Gupta,Kevin Lin,Dan Roth,Sameer Singh,Matt Gardner
9+阅读 · 2019年12月10日
Qipeng Guo,Xipeng Qiu,Pengfei Liu,Xiangyang Xue,Zheng Zhang
3+阅读 · 2019年12月2日
Text Level Graph Neural Network for Text Classification
Lianzhe Huang,Dehong Ma,Sujian Li,Xiaodong Zhang,Houfeng WANG
8+阅读 · 2019年10月8日
Yongqin Xian,Saurabh Sharma,Bernt Schiele,Zeynep Akata
11+阅读 · 2019年3月25日
Information-Directed Exploration for Deep Reinforcement Learning
Nikolay Nikolov,Johannes Kirschner,Felix Berkenkamp,Andreas Krause
3+阅读 · 2018年12月18日
Liang Yao,Chengsheng Mao,Yuan Luo
12+阅读 · 2018年9月15日
Hierarchical Graph Representation Learning with Differentiable Pooling
Rex Ying,Jiaxuan You,Christopher Morris,Xiang Ren,William L. Hamilton,Jure Leskovec
8+阅读 · 2018年6月26日
Petar Veličković,Guillem Cucurull,Arantxa Casanova,Adriana Romero,Pietro Liò,Yoshua Bengio
6+阅读 · 2018年2月4日
Jeremy Howard,Sebastian Ruder
4+阅读 · 2018年1月18日
Lizi Liao,Xiangnan He,Hanwang Zhang,Tat-Seng Chua
3+阅读 · 2017年5月14日
Top