138页“策略优化”PPT--Pieter Abbeel - 专知

会员服务 ·

0

138页“策略优化”PPT--Pieter Abbeel

2019 年 10 月 20 日 深度强化学习实验室

深度强化学习报道

来源于：Pieter Abbeel教授(slide)

编辑：DeepRL

策略梯度法（Policy gradient methods）是近来使用深度神经网络进行控制的突破基础，不论是视频游戏还是 3D 移动或者围棋控制等，它们都基于策略梯度法。但是通过策略梯度法获得优秀的结果是十分困难的，因为它对步长大小的选择非常敏感。如果迭代步长太小，那么训练进展会非常慢，但如果迭代步长太大，那么信号将受到噪声的强烈干扰，因此我们会看到性能会急剧降低。同时这种策略梯度法有非常低的样本效率，它需要数百万（或数十亿）的时间步骤来学习一个简单的任务。因此，策略优化成为一个非常重要的研究问题，本文选取了大牛Pieter Abbeel的演讲slide。

slide原文pdf地址：

1、公众后台回复：Policy

2、 https://github.com/NeuronDance/DeepRL

深度强化学习实验室

算法、框架、资料、前沿信息等

GitHub仓库

https://github.com/NeuronDance/DeepRL

欢迎Fork,Star,Pull Request

▼

往期精彩回顾

▼

第27篇：迁移学习在强化学习中的应用及最新进展

第26篇：深入理解Hindsight Experience Replay

第25篇：10项【深度强化学习】赛事汇总

第24篇：DRL实验中到底需要多少个随机种子？

第23篇：142页"ICML会议"强化学习笔记

第22篇：通过深度强化学习实现通用量子控制

第21篇：《深度强化学习》面试题汇总

第20篇：《深度强化学习》招聘汇总(13家企业）

第19篇：解决反馈稀疏问题之HER原理与代码实现

第18篇："DeepRacer" —顶级深度强化学习挑战赛

第17篇：AI Paper | 几个实用工具推荐

第16篇：AI领域：如何做优秀研究并写高水平论文？

第15篇： DeepMind开源三大新框架！

第14篇： 61篇NIPS2019深度强化学习论文及部分解读

第13篇： OpenSpiel(28种DRL环境+24种DRL算法)

第12篇：模块化和快速原型设计的Huskarl DRL框架

第11篇： DRL在Unity自行车环境中配置与实践

第10篇：解读72篇DeepMind深度强化学习论文

第9篇：《AutoML》：一份自动化调参的指导

第8篇： ReinforceJS库（动态展示DP、TD、DQN）

第7篇： 10年NIPS顶会DRL论文(100多篇)汇总

第6篇： ICML2019-深度强化学习文章汇总

第5篇：深度强化学习在阿里巴巴的技术演进

第4篇：深度强化学习十大原则

第3篇： “超参数”自动化设置方法---DeepHyper

第2篇：深度强化学习的加速方法

第1篇：深入浅出解读"多巴胺（Dopamine）论文"、环境配置和实例分析

登录查看更多

0

相关内容

Pieter Abbeel

Pieter Abbeel是加州大学伯克利分校电子工程和计算机科学教授，伯克利机器人学习实验室主任和伯克利AI研究实验室联合主任。

【伯克利-Ke Li】学习优化，74页ppt，Learning to Optimize

【伯克利-Ke Li】学习优化，74页ppt，Learning to Optimize

专知会员服务

41+阅读 · 2020年7月23日

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

【伯克利】最新《深度半监督学习》总述，146页ppt，Semi-Supervised Learning

【伯克利】最新《深度半监督学习》总述，146页ppt，Semi-Supervised Learning

专知会员服务

147+阅读 · 2020年4月11日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知会员服务

34+阅读 · 2019年11月26日

【CS294-158 《深度无监督学习》 2019年春】伯克利Pieter Abbeel新开课程（含视频PPT）

【CS294-158 《深度无监督学习》 2019年春】伯克利Pieter Abbeel新开课程（含视频PPT）

专知会员服务

29+阅读 · 2019年11月2日

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

专知会员服务

32+阅读 · 2019年10月12日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

【ICML2019】UC伯克利Pieter Abbeel教授强化学习教程-附59页slides

【ICML2019】UC伯克利Pieter Abbeel教授强化学习教程-附59页slides

专知

19+阅读 · 2019年6月17日

《深度无监督学习》伯克利Pieter Abbeel新开课程（含视频PPT）

《深度无监督学习》伯克利Pieter Abbeel新开课程（含视频PPT）

专知

21+阅读 · 2019年2月19日

【强化学习干货】《深度学习与机器人学》大牛Pieter Abbeel 105页PPT下载

【强化学习干货】《深度学习与机器人学》大牛Pieter Abbeel 105页PPT下载

新智元

13+阅读 · 2019年1月2日

【微软亚研130PPT教程】强化学习简介

【微软亚研130PPT教程】强化学习简介

专知

36+阅读 · 2018年10月26日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

学界 | Pieter Abbeel NIPS 2017大会报告《Deep Learning for Robots》（附PDF）

学界 | Pieter Abbeel NIPS 2017大会报告《Deep Learning for Robots》（附PDF）

AI科技评论

4+阅读 · 2017年12月9日

斯坦福大学2017年-Spring-最新强化学习（Reinforcement Learning）课程分享

斯坦福大学2017年-Spring-最新强化学习（Reinforcement Learning）课程分享

深度学习与NLP

5+阅读 · 2017年9月21日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

Continual Unsupervised Representation Learning

Continual Unsupervised Representation Learning

Arxiv

7+阅读 · 2019年10月31日

Risk-Aware Active Inverse Reinforcement Learning

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

On Improving Decentralized Hysteretic Deep Reinforcement Learning

On Improving Decentralized Hysteretic Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年12月15日

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Arxiv

9+阅读 · 2018年11月25日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning

Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月17日

Meta-Learning with Latent Embedding Optimization

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

VIP会员

相关主题

深度强化学习

相关VIP内容

【伯克利-Ke Li】学习优化，74页ppt，Learning to Optimize

【伯克利-Ke Li】学习优化，74页ppt，Learning to Optimize

专知会员服务

41+阅读 · 2020年7月23日

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

【伯克利】最新《深度半监督学习》总述，146页ppt，Semi-Supervised Learning

【伯克利】最新《深度半监督学习》总述，146页ppt，Semi-Supervised Learning

专知会员服务

147+阅读 · 2020年4月11日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知会员服务

34+阅读 · 2019年11月26日

【CS294-158 《深度无监督学习》 2019年春】伯克利Pieter Abbeel新开课程（含视频PPT）

【CS294-158 《深度无监督学习》 2019年春】伯克利Pieter Abbeel新开课程（含视频PPT）

专知会员服务

29+阅读 · 2019年11月2日

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

专知会员服务

32+阅读 · 2019年10月12日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

【ICML2019】UC伯克利Pieter Abbeel教授强化学习教程-附59页slides

【ICML2019】UC伯克利Pieter Abbeel教授强化学习教程-附59页slides

专知

19+阅读 · 2019年6月17日

《深度无监督学习》伯克利Pieter Abbeel新开课程（含视频PPT）

《深度无监督学习》伯克利Pieter Abbeel新开课程（含视频PPT）

专知

21+阅读 · 2019年2月19日

【强化学习干货】《深度学习与机器人学》大牛Pieter Abbeel 105页PPT下载

【强化学习干货】《深度学习与机器人学》大牛Pieter Abbeel 105页PPT下载

新智元

13+阅读 · 2019年1月2日

【微软亚研130PPT教程】强化学习简介

【微软亚研130PPT教程】强化学习简介

专知

36+阅读 · 2018年10月26日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

学界 | Pieter Abbeel NIPS 2017大会报告《Deep Learning for Robots》（附PDF）

学界 | Pieter Abbeel NIPS 2017大会报告《Deep Learning for Robots》（附PDF）

AI科技评论

4+阅读 · 2017年12月9日

斯坦福大学2017年-Spring-最新强化学习（Reinforcement Learning）课程分享

斯坦福大学2017年-Spring-最新强化学习（Reinforcement Learning）课程分享

深度学习与NLP

5+阅读 · 2017年9月21日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

相关论文

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

Continual Unsupervised Representation Learning

Continual Unsupervised Representation Learning

Arxiv

7+阅读 · 2019年10月31日

Risk-Aware Active Inverse Reinforcement Learning

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

On Improving Decentralized Hysteretic Deep Reinforcement Learning

On Improving Decentralized Hysteretic Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年12月15日

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Arxiv

9+阅读 · 2018年11月25日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning

Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月17日

Meta-Learning with Latent Embedding Optimization

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

大家都在搜

国防科技创新

大型语言模型

CMU博士论文

久别重逢话双塔

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员