多目标的强化学习教程

2018 年 1 月 25 日 CreateAMind
多目标的强化学习教程

1  https://flyyufelix.github.io/2017/11/17/direct-future-prediction.html

Direct Future Prediction - Supervised Learning for Reinforcement Learning



2  原文https://www.oreilly.com/ideas/reinforcement-learning-for-complex-goals-using-tensorflow,

建议  这一段参考原文

This new formulation changes our neural network in several ways. Instead of just a state, we will also provide as input to the network the current measurements and goal. Instead of Q-values, our network will now output a prediction tensor of the form [Measurements X Actions X Offsets]. Taking the product of the summed predicted future changes and our goals, we can pick actions that best satisfy our goals over time:


量子位的中文翻译: 

https://mp.weixin.qq.com/s/XHdaoOWBgOWX7SrOemY4jw






登录查看更多
3

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

The tutorial is written for those who would like an introduction to reinforcement learning (RL). The aim is to provide an intuitive presentation of the ideas rather than concentrate on the deeper mathematics underlying the topic. RL is generally used to solve the so-called Markov decision problem (MDP). In other words, the problem that you are attempting to solve with RL should be an MDP or its variant. The theory of RL relies on dynamic programming (DP) and artificial intelligence (AI). We will begin with a quick description of MDPs. We will discuss what we mean by “complex” and “large-scale” MDPs. Then we will explain why RL is needed to solve complex and large-scale MDPs. The semi-Markov decision problem (SMDP) will also be covered.

The tutorial is meant to serve as an introduction to these topics and is based mostly on the book: “Simulation-based optimization: Parametric Optimization techniques and reinforcement learning” [4]. The book discusses this topic in greater detail in the context of simulators. There are at least two other textbooks that I would recommend you to read: (i) Neuro-dynamic programming [2] (lots of details on convergence analysis) and (ii) Reinforcement Learning: An Introduction [11] (lots of details on underlying AI concepts). A more recent tutorial on this topic is [8]. This tutorial has 2 sections: • Section 2 discusses MDPs and SMDPs. • Section 3 discusses RL. By the end of this tutorial, you should be able to • Identify problem structures that can be set up as MDPs / SMDPs. • Use some RL algorithms.

成为VIP会员查看完整内容
0
74
小贴士
相关资讯
【资源】强化学习实践教程
专知
41+阅读 · 2019年9月11日
RL 真经
CreateAMind
4+阅读 · 2018年12月28日
spinningup.openai 强化学习资源完整
CreateAMind
4+阅读 · 2018年12月17日
一个强化学习 Q-learning 算法的简明教程
数据挖掘入门与实战
8+阅读 · 2018年3月18日
强化学习的入门之旅
机器学习研究会
5+阅读 · 2018年2月12日
【资源】15个在线机器学习课程和教程
专知
6+阅读 · 2017年12月22日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
【推荐】SVM实例教程
机器学习研究会
16+阅读 · 2017年8月26日
强化学习族谱
CreateAMind
11+阅读 · 2017年8月2日
相关VIP内容
专知会员服务
81+阅读 · 2020年3月18日
【教程】自然语言处理中的迁移学习原理,41 页PPT
专知会员服务
63+阅读 · 2020年2月8日
专知会员服务
107+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
111+阅读 · 2019年12月14日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
61+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
74+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
45+阅读 · 2019年10月10日
相关论文
Mingzhen Li,Yi Liu,Xiaoyan Liu,Qingxiao Sun,Xin You,Hailong Yang,Zhongzhi Luan,Depei Qian
9+阅读 · 2020年2月6日
A Comprehensive Survey on Transfer Learning
Fuzhen Zhuang,Zhiyuan Qi,Keyu Duan,Dongbo Xi,Yongchun Zhu,Hengshu Zhu,Hui Xiong,Qing He
90+阅读 · 2019年11月7日
Object-centric Forward Modeling for Model Predictive Control
Yufei Ye,Dhiraj Gandhi,Abhinav Gupta,Shubham Tulsiani
4+阅读 · 2019年10月8日
Scene Text Detection and Recognition: The Deep Learning Era
Shangbang Long,Xin He,Cong Yao
16+阅读 · 2019年9月5日
Playing Text-Adventure Games with Graph-Based Deep Reinforcement Learning
Prithviraj Ammanabrolu,Mark O. Riedl
4+阅读 · 2019年3月25日
Borja Ibarz,Jan Leike,Tobias Pohlen,Geoffrey Irving,Shane Legg,Dario Amodei
4+阅读 · 2018年11月15日
Steven Hansen,Pablo Sprechmann,Alexander Pritzel,André Barreto,Charles Blundell
3+阅读 · 2018年10月18日
Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning
Eli Friedman,Fred Fontaine
5+阅读 · 2018年9月17日
GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms
Cédric Colas,Olivier Sigaud,Pierre-Yves Oudeyer
3+阅读 · 2018年8月17日
Lei Zhang,Shuai Wang,Bing Liu
25+阅读 · 2018年1月24日
Top