来自伯克利Pieter Abbeel教授讲述的深度强化学习课程6讲,讲述内容包括,MDP basics, value & policy iteration, max-ent, DQN, policy gradient, TRPO, PPO, DDPG, SAC, model-based RL.

视频地址: https://www.youtube.com/playlist?list=PLwRJQ4m4UJjNymuBM9RdmB3Z9N5-0IlY0

成为VIP会员查看完整内容
0
21

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

嘉宾:Pieter Abbeel ,加州大学伯克利分校机器人学习实验室主任,人工智能实验室联合主任、covariant.ai 和 Gradescope 联合创始人

在这次演讲中,我将分享我对如何为机器人实现大型预训练神经网络的想法,就像GPT-x/BERT等预训练模型在NLP中被标准使用的方式一样。我列出了我们如何在无监督表征学习、无监督(无奖励)强化学习(RL)预训练、人在循环中的RL和少样本模仿学习等方面取得实质性的研究进展。

成为VIP会员查看完整内容
0
23

这是一门关于在不确定情况下强化学习(RL)和顺序决策的入门课程,重点在于理解理论基础。我们研究如何使用动态规划方法,如价值和策略迭代,来解决具有已知模型的顺序决策问题,以及如何扩展这些方法,以解决模型未知的强化学习问题。其他主题包括(但不限于)RL中的函数近似、策略梯度方法、基于模型的RL以及平衡探索-利用权衡。本课程将以讲座和阅读古典及近期论文的方式传授给学生。因为重点是理解基础,你应该期望通过数学细节和证明。本课程的要求背景包括熟悉概率论和统计、微积分、线性代数、最优化和(有监督的)机器学习。

https://amfarahmand.github.io/IntroRL/

目录内容:

  • Introduction to Reinforcement Learning
  • Structural Properties of Markov Decision Processes (Part I)
  • Structural Properties of Markov Decision Processes (Part II)
  • Planning with a Known Model
  • Learning from a Stream of Data (Part I)
  • Learning from a Stream of Data (Part II)
  • Value Function Approximation (Part I)
  • Value Function Approximation (Part II)
  • Value Function Approximation (Part III)
  • Value Function Approximation (Part IV)
  • Policy Gradient Methods
  • Model-based RL
  • Presentations

强化学习入门笔记

这是多伦多大学计算机科学系于2021年春季教授的强化学习(RL)研究生课程介绍的讲义。本课程是入门性的,因为它不需要预先接触强化学习。然而,它不仅仅是算法的集合。相反,它试图在RL中经常遇到的许多重要思想和概念背后建立数学直觉。在这些讲义的过程中,我证明了很多基础的,或者有时不那么基础的,RL的结果。如果某个结果的证明过于复杂,我就证明一个简化的版本。

强化学习(RL)既指一类问题,也指解决这类问题的一组计算方法。RL问题是指如何采取行动,使某些长期绩效的概念得到最大化。RL问题,从它的定义来看,是关于一个实体的行为和交互,我们称之为代理,与其周围的环境,我们称之为环境。这是一个非常普遍的目标。有人可能会说,解决AI问题等同于解决RL问题。强化学习也指解决RL问题的一套计算方法。一个代理需要做什么样的计算才能确保它的行为能够带来良好的(甚至是最佳的)长期性能?实现这些的方法称为RL方法。历史上,在所有试图解决RL问题的计算方法中,只有一个子集被称为RL方法。例如Q-Learning这样的方法(我们将在本课程中学习)是一种很好的RL方法,但是进化计算的方法,如遗传算法,则不是。人们可以争辩说,进化计算方法没有太多的“学习”成分,或者它们不以个体生命的时间尺度行事,而是以世代的时间尺度行事。虽然这些是真正的区别,但这种划分方式有些武断。在本课堂讲稿中,我们将重点放在“RL社区”中经常学习的方法上。

成为VIP会员查看完整内容
0
35

近日,深度学习课程 CS182 已发布所有视频课程(截至目前),课程讲师是来自加州大学伯克利分校电气工程与计算机科学系的助理教授 Sergey Levine 。

课程主页:https://cs182sp21.github.io/

Youtube 地址:https://www.youtube.com/playlist?list=PL_iWQOsE6TfVmKkQHucjPAoRtIJYt8a5A

此外,该课程目前也可以在 B 站观看。

B 站地址:https://www.bilibili.com/video/BV1PK4y1U751?from=search&seid=1335715751087936923

CS 182 是一门深度学习入门课程,涵盖了深度学习的诸多内容,适用于高级本科生及研究生。 目前,这门课程在 Youtube 和 B 站上已有 44 节视频内容:

成为VIP会员查看完整内容
0
27

报告简介: 深度强化学习与元学习是当前研究热点。加州大学UC Berkeley Pieter Abbeel教授最新在卡内基梅隆大学CMU中做了演讲关于深度强化学习在机器人的应用,《Deep Learning to learn》,是了解深度学习在机器人应用研究进展的很好报告。

嘉宾介绍: Pieter Abbeel,加州大学伯克利分校教授、机器人学习实验室主任,伯克利人工智能研究(BAIR)实验室联合主任。Pieter Abbeel是机器人和强化学习领域的大牛。Pieter Abbeel 2008年从斯坦福大学获得博士学位,师从百度前首席科学家 Andrew Ng(吴恩达),毕业后在UC Berkeley任教。Pieter Abbeel还是两家AI公司的创始人,Gradescope和covariant.ai。Gradescope开发为家庭作业、课题研究、试卷等打分的AI系统;covariant.ai开发机器人自动化的AI系统,在制造/仓储/电子商务/物流等领域应用。 Pieter Abbeel 的研究重点特别集中于如何让机器人向人类学习(学徒学习),如何让机器人通过自己的试错过程学习(强化学习),以及如何通过从learning-to-learn(元学习)过程中加快技能获取。他开发的机器人已经学会了先进的直升机特技飞行、打结、基本装配、叠衣服、移动、以及基于视觉的机器人操作。

下载链接: 链接:https://pan.baidu.com/s/1aFOE18rk-icczXBYJERWow 提取码:8ixa

成为VIP会员查看完整内容
0
27
小贴士
相关论文
Improving Hyperparameter Optimization by Planning Ahead
Hadi S. Jomaa,Jonas Falkner,Lars Schmidt-Thieme
0+阅读 · 10月15日
Yi Yuan,Gan Zheng,Kai-Kit Wong,Khaled B. Letaief
0+阅读 · 10月14日
Zengyi Qin,Yuxiao Chen,Chuchu Fan
5+阅读 · 6月24日
Risk-Aware Active Inverse Reinforcement Learning
Daniel S. Brown,Yuchen Cui,Scott Niekum
4+阅读 · 2019年1月8日
Jingkang Wang,Yang Liu,Bo Li
3+阅读 · 2018年10月5日
Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning
Tom Zahavy,Matan Haroush,Nadav Merlis,Daniel J. Mankowitz,Shie Mannor
4+阅读 · 2018年9月6日
A Multi-Objective Deep Reinforcement Learning Framework
Thanh Thi Nguyen
9+阅读 · 2018年6月27日
Benjamin Recht
5+阅读 · 2018年6月25日
Zhengming Zhang,Yaru Zheng,Meng Hua,Yongming Huang,Luxi Yang
4+阅读 · 2018年3月30日
Top