解耦强化学习的值函数学习

2019 年 9 月 5 日 CreateAMind


现在AI学习规则还很困难,虽然alphago取得了很大的进展,但是迁移能力很弱,规则一般都涉及到奖励和惩罚,也就是对应到了强化学习的reward函数,人学习规则都比较快,在儿童玩游戏中规则还会经常调整,儿童都能很快的适应,现在强化学习通常是在训练的时候reward规则和整个环境是耦合在一起的,如果可以解耦,AI学习熟悉环境和学习reward分开学习,势必会加快AI的学习,今天介绍的Successor Features就可以一定程度满足这个目的的。


简单来说

ref https://julien-vitay.net/2019/05/successor-representations/


值函数被分解为两部分

reward学习分解为环境的表示学习和收益学习;




今天介绍的paper是:

Successor Features Support Model-based and Model-free Reinforcement Learning

这篇文章对model-base学习介绍的几个定理比较新颖,理论推导比较充分,对model-base的表示学习论证非常充分,通过SFs model-base可以学习一个很好的跟reward相关的表示,非常遗憾的是都是很小环境的实验。

从后面的图1 能看到这个方法有比较好的抽象能力;
















从图1 能看到这个方法比较好的抽象能力;











欢迎加入打卡群自律学习强化学习,更欢迎支持或加入我们!请参考公众号createAmind菜单说明。



最新文章分类、推荐文章整理

登录查看更多
5

相关内容

【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
211+阅读 · 2020年6月5日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
38+阅读 · 2020年3月9日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
RL圣经出中文版了
CreateAMind
18+阅读 · 2019年9月13日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
强化学习的未来——第一部分
AI研习社
9+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
51+阅读 · 2017年8月11日
Arxiv
4+阅读 · 2019年1月14日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关VIP内容
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
211+阅读 · 2020年6月5日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
38+阅读 · 2020年3月9日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
RL圣经出中文版了
CreateAMind
18+阅读 · 2019年9月13日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
强化学习的未来——第一部分
AI研习社
9+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
51+阅读 · 2017年8月11日
Top
微信扫码咨询专知VIP会员