138页“策略优化”PPT--Pieter Abbeel

2019 年 10 月 20 日 深度强化学习实验室
深度强化学习报道

来源于:Pieter Abbeel教授(slide)

编辑:DeepRL


策略梯度法(Policy gradient methods)是近来使用深度神经网络进行控制的突破基础,不论是视频游戏还是 3D 移动或者围棋控制等,它们都基于策略梯度法。但是通过策略梯度法获得优秀的结果是十分困难的,因为它对步长大小的选择非常敏感。如果迭代步长太小,那么训练进展会非常慢,但如果迭代步长太大,那么信号将受到噪声的强烈干扰,因此我们会看到性能会急剧降低。同时这种策略梯度法有非常低的样本效率,它需要数百万(或数十亿)的时间步骤来学习一个简单的任务。因此,策略优化成为一个非常重要的研究问题,本文选取了大牛Pieter Abbeel的演讲slide。







slide原文pdf地址:

1、公众后台回复:Policy

2、 https://github.com/NeuronDance/DeepRL



深度强化学习实验室

算法、框架、资料、前沿信息等


GitHub仓库

https://github.com/NeuronDance/DeepRL

欢迎Fork,Star,Pull Request


往期精彩回顾

第27篇:迁移学习在强化学习中的应用及最新进展

第26篇:深入理解Hindsight Experience Replay

第25篇:10项【深度强化学习】赛事汇总

第24篇:DRL实验中到底需要多少个随机种子?

第23篇:142页"ICML会议"强化学习笔记

第22篇:通过深度强化学习实现通用量子控制

第21篇:《深度强化学习》面试题汇总

第20篇:《深度强化学习》招聘汇总(13家企业)

第19篇:解决反馈稀疏问题之HER原理与代码实现

第18篇:"DeepRacer" —顶级深度强化学习挑战赛

第17篇:AI Paper | 几个实用工具推荐

第16篇:AI领域:如何做优秀研究并写高水平论文?

第15篇: DeepMind开源三大新框架!
第14篇: 61篇NIPS2019深度强化学习论文及部分解读
第13篇: OpenSpiel(28种DRL环境+24种DRL算法)
第12篇: 模块化和快速原型设计的Huskarl DRL框架
第11篇: DRL在Unity自行车环境中配置与实践
第10篇: 解读72篇DeepMind深度强化学习论文
第9篇: 《AutoML》:一份自动化调参的指导
第8篇: ReinforceJS库(动态展示DP、TD、DQN)
第7篇: 10年NIPS顶会DRL论文(100多篇)汇总
第6篇: ICML2019-深度强化学习文章汇总
第5篇: 深度强化学习在阿里巴巴的技术演进
第4篇: 深度强化学习十大原则
第3篇: “超参数”自动化设置方法---DeepHyper
第2篇: 深度强化学习的加速方法
第1篇: 深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析
登录查看更多
0

相关内容

Pieter Abbeel是加州大学伯克利分校电子工程和计算机科学教授,伯克利机器人学习实验室主任和伯克利AI研究实验室联合主任。
【伯克利-Ke Li】学习优化,74页ppt,Learning to Optimize
专知会员服务
40+阅读 · 2020年7月23日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
123+阅读 · 2020年7月20日
深度强化学习策略梯度教程,53页ppt
专知会员服务
177+阅读 · 2020年2月1日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
【微软亚研130PPT教程】强化学习简介
专知
36+阅读 · 2018年10月26日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年10月5日
Meta-Learning with Latent Embedding Optimization
Arxiv
6+阅读 · 2018年7月16日
VIP会员
Top
微信扫码咨询专知VIP会员