强化学习是一种学习范式,它关注于如何学习控制一个系统,从而最大化表达一个长期目标的数值性能度量。强化学习与监督学习的区别在于,对于学习者的预测,只向学习者提供部分反馈。此外,预测还可能通过影响被控系统的未来状态而产生长期影响。因此,时间起着特殊的作用。强化学习的目标是开发高效的学习算法,以及了解算法的优点和局限性。强化学习具有广泛的实际应用价值,从人工智能到运筹学或控制工程等领域。在这本书中,我们重点关注那些基于强大的动态规划理论的强化学习算法。我们给出了一个相当全面的学习问题目录,描述了核心思想,关注大量的最新算法,然后讨论了它们的理论性质和局限性。

Preface ix Acknowledgments xiii Markov Decision Processes 1 Value Prediction Problems 11 Control 37 For Further Exploration 63 Further reading 63 Applications 63 Software 64 Appendix: The Theory of Discounted Markovian Decision Processes 65 A.1 Contractions and Banach’s fixed-point theorem 65 A.2 Application to MDPs 69 Bibliography 73 Author's Biography 89

成为VIP会员查看完整内容
62

相关内容

《行为与认知机器人学》,241页pdf
专知会员服务
52+阅读 · 2021年4月11日
专知会员服务
52+阅读 · 2020年12月24日
专知会员服务
109+阅读 · 2020年12月17日
【干货书】机器学习速查手册,135页pdf
专知会员服务
121+阅读 · 2020年11月20日
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
增强学习算法讲解:马尔可夫决策过程MDP
数据挖掘入门与实战
7+阅读 · 2018年4月22日
关于强化学习(附代码,练习和解答)
深度学习
35+阅读 · 2018年1月30日
荐书丨机器学习——Python实践(留言送书)
程序人生
7+阅读 · 2018年1月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年4月8日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
7+阅读 · 2019年5月31日
VIP会员
相关VIP内容
《行为与认知机器人学》,241页pdf
专知会员服务
52+阅读 · 2021年4月11日
专知会员服务
52+阅读 · 2020年12月24日
专知会员服务
109+阅读 · 2020年12月17日
【干货书】机器学习速查手册,135页pdf
专知会员服务
121+阅读 · 2020年11月20日
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
相关资讯
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
增强学习算法讲解:马尔可夫决策过程MDP
数据挖掘入门与实战
7+阅读 · 2018年4月22日
关于强化学习(附代码,练习和解答)
深度学习
35+阅读 · 2018年1月30日
荐书丨机器学习——Python实践(留言送书)
程序人生
7+阅读 · 2018年1月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
微信扫码咨询专知VIP会员