【微软Alekh等开放新书】强化学习理论与算法,83页pdf,了解最新进展

2019 年 11 月 23 日 专知
【微软Alekh等开放新书】强化学习理论与算法,83页pdf,了解最新进展

【导读】强化学习是近几年研究的热点,特别是伴随DeepMind AlphaGo的出现名声大噪。微软首席研究经理Alekh Agarwal、UIUC助理教授姜楠、华盛顿研究基金会数据科学主席Sham M. Kakade合编的新书《强化学习:理论与算法》,83页pdf,讲述了强化学习最新进展,包括MDP、样本复杂度、策略探索、PG、值函数等关键议题,是了解强化学习的材料。

新书地址:

https://rltheorybook.github.io/


作者介绍:



Alekh Agarwal目前是微软人工智能研究中心的研究员,领导强化学习研究小组。之前,在加州大学伯克利分校获得计算机科学博士学位后,与彼得·巴特利特(Peter Bartlett)和马丁·温赖特(Martin Wainwright)一起在纽约微软研究院(Microsoft Research)度过了六年美好的时光。


http://alekhagarwal.net/


姜楠,UIUC助理教授

https://nanjiang.cs.illinois.edu/


华盛顿研究基金会数据科学主席Sham M. Kakade



强化学习(RL)是一种机器学习范式,在这种范式中,agent从经验中学习完成顺序决策任务。RL在机器人、控制、对话系统、医疗等领域有广泛的应用。


第一章 马尔科夫决策过程MDP 预介绍

在强化学习中,agent与环境之间的相互作用通常用马尔可夫描述,决策过程(MDP) [Puterman, 1994],

1.1 马尔科夫决策过程

1.1.1 交互协议

1.1.2 目标、策略和价值观

1.1.3 平稳策略的Bellman一致性方程

1.1.4 Bellman最优性方程

1.2 MDP规划

1.2.1 Q值迭代

1.2.2 策略迭代



第二章 生成模型的样本复杂度

2.1 生成模型设置

2.2 样本的复杂性

2.2.1一种朴素方法:精确的模型估计

2.2.2 更细化的方法:使用稀疏模型

2.2.3下界

2.2.4 关于πb策略的价值

2.3 分析

2.3.1 完成证明

2.4 文献评论


第三章 强化学习的策略探索

在这一讲中,我们将看到一个代理如何在MDP中工作,随着时间的推移,它可以学习接近最优的行为策略。与前一讲关于生成模型的设置相比,我们不再能够方便地访问每个状态的转换,而只能在MDP中执行轨迹。这给学习过程增加的主要复杂性是,代理必须参与探索,也就是说,计划到达尚未看到足够多的样本的新状态,以便能够学习这些状态中的最佳行为。


第四章 策略梯度方法

4.1策略梯度法

4.4.1优化

4.2 软最大策略和相对熵正则化

4.3 自然策略梯度

4.3.1 全局收敛和Softmax策略类

4.3.2 函数逼近与迁移学习的联系

4.4 相关算法

4.4.1 信任区域策略优化(TRPO)

4.4.2 近策略优化(PPO)

4.4.3 保守政策迭代(CPI)

4.5 文献评论



第五章 值函数近似

5.1 近似策略策评价

5.2 大致的策略改进

5.2.1 基于“∞逼近”的贪婪策略改进

5.2.2 保守策略迭代


第六章 RL的战略探索和丰富的观测资料

6.1 问题设置

6.2 值函数逼近

6.3 传达员排名

6.4 Bellman秩较小的CDPs的样本效率学习


第七章 行为克隆和学徒学习

7.1 线性规划公式

7.1.1 原始LP

7.1.2 双LP

7.2 行为克隆

7.2.1 通过监督学习进行行为克隆

7.2.2 分布匹配的行为克隆

7.2.3 样本效率:比较方法

7.3 观察学习

7.3.1 通过分布匹配从观测中学习

7.4 反向强化学习


完整详细请官网下载或者便捷下载:请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“RLTA” 咨询获取强化学习《Reinforcement Learning: Theory and Algorithms》电子书pdf下载链接


更多关于“强化学习”的论文知识资料,请登录专知网站www.zhuanzhi.ai查看,或者点击“阅读原文查看:

https://www.zhuanzhi.ai/topic/2001320766352755/awesome 






-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,使用 专知 ,查看5000+AI主题知识资料
登录查看更多
12

相关内容

Alekh Agarwal目前是微软人工智能研究中心的研究员,领导强化学习研究小组。之前,在加州大学伯克利分校获得计算机科学博士学位后,与彼得·巴特利特(Peter Bartlett)和马丁·温赖特(Martin Wainwright)一起在纽约微软研究院(Microsoft Research)度过了六年美好的时光。

这本书的目标是介绍自动微分的基本算法,以及流行的数学和统计函数的自动微分规则的百科全书式的集合。

自动微分是一种通用的技术,用于将函数的计算值转换为可计算导数的值。导数计算只给用于计算函数值的每个操作增加一个常数的开销,因此可微函数与原始函数具有相同的复杂度阶数。在描述了自动微分的标准形式之后,这本书提供了一个百科全书收集的正切和伴随规则的前向模式和后向模式自动微分,涵盖了最广泛使用的标量,向量,矩阵和概率函数。附录包含正向模式、反向模式和混合模式自动区分的工作示例代码。

成为VIP会员查看完整内容
0
49

机器学习是计算机科学中增长最快的领域之一,具有深远的应用。本书的目的是介绍机器学习,以及它所提供的算法范例。本书对机器学习的基本原理和将这些原理转化为实际算法的数学推导提供了理论解释。在介绍了基础知识之后,这本书涵盖了以前教科书没有涉及到的一系列广泛的中心主题。这些包括讨论学习的计算复杂性和凸性和稳定性的概念;重要的算法范例包括随机梯度下降、神经网络和结构化输出学习;以及新兴的理论概念,如PAC-Bayes方法和基于压缩的界限。本文面向高级本科生或刚毕业的学生,使统计学、计算机科学、数学和工程学领域的学生和非专业读者都能接触到机器学习的基本原理和算法。

https://www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html

概述

机器学习是指自动检测数据中有意义的模式。在过去的几十年里,它已经成为几乎所有需要从大数据集中提取信息的任务的通用工具。我们被一种基于机器学习的技术包围着:搜索引擎学习如何给我们带来最好的结果(同时投放有利可图的广告),反垃圾邮件软件学习如何过滤我们的电子邮件信息,信用卡交易被一种学习如何侦测欺诈的软件保护着。数码相机学会识别人脸,智能手机上的智能个人辅助应用学会识别语音指令。汽车配备了使用机器学习算法构建的事故预防系统。机器学习还广泛应用于生物信息学、医学和天文学等科学领域。

所有这些应用程序的一个共同特征是,与计算机的更传统使用相比,在这些情况下,由于需要检测的模式的复杂性,人类程序员无法提供关于这些任务应该如何执行的明确、详细的规范。以智慧生物为例,我们的许多技能都是通过学习我们的经验(而不是遵循给我们的明确指示)而获得或改进的。机器学习工具关注的是赋予程序“学习”和适应的能力。

这本书的第一个目标是提供一个严格的,但易于遵循,介绍机器学习的主要概念: 什么是机器学习?

本书的第二个目标是介绍几种关键的机器学习算法。我们选择展示的算法一方面在实践中得到了成功应用,另一方面提供了广泛的不同的学习技术。此外,我们特别关注适合大规模学习的算法(又称“大数据”),因为近年来,我们的世界变得越来越“数字化”,可用于学习的数据量也在急剧增加。因此,在许多应用中数据量大,计算时间是主要瓶颈。因此,我们明确地量化了学习给定概念所需的数据量和计算时间。

目录:

  • Introduction

Part I: Foundations

  • A gentle start
  • A formal learning model
  • Learning via uniform convergence
  • The bias-complexity trade-off
  • The VC-dimension
  • Non-uniform learnability
  • The runtime of learning

Part II: From Theory to Algorithms

  • Linear predictors
  • Boosting
  • Model selection and validation
  • Convex learning problems
  • Regularization and stability
  • Stochastic gradient descent
  • Support vector machines
  • Kernel methods
  • Multiclass, ranking, and complex prediction problems
  • Decision trees
  • Nearest neighbor
  • Neural networks

Part III: Additional Learning Models

  • Online learning
  • Clustering
  • Dimensionality reduction
  • Generative models
  • Feature selection and generation

Part IV: Advanced Theory

  • Rademacher complexities
  • Covering numbers
  • Proof of the fundamental theorem of learning theory
  • Multiclass learnability
  • Compression bounds
  • PAC-Bayes

Appendices

  • Technical lemmas
  • Measure concentration
  • Linear algebra
成为VIP会员查看完整内容
0
129

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
97

题目:Applied Reinforcement Learning with Python With OpenAI Gym, Tensorflow, and Keras

深入研究强化学习算法,并通过Python将它们应用到不同的用例中。这本书涵盖了重要的主题,如策略梯度和Q学习,并利用框架,如Tensorflow, Keras,和OpenAI Gym。

Python中的应用增强学习向您介绍了强化学习(RL)算法背后的理论和用于实现它们的代码。您将在指导下了解OpenAI Gym的特性,从使用标准库到创建自己的环境,然后了解如何构建强化学习问题,以便研究、开发和部署基于rl的解决方案。

你将学习:

  • 用Python实现强化学习
  • 使用AI框架,如OpenAI Gym、Tensorflow和Keras
  • 通过云资源部署和培训基于增强学习的解决方案
  • 应用强化学习的实际应用

这本书是给谁看的: 数据科学家、机器学习工程师和软件工程师熟悉机器学习和深度学习的概念。

地址:

https://www.springerprofessional.de/en/applied-reinforcement-learning-with-python/17098944

目录:

第1章 强化学习导论

在过去的一年里,深度学习技术的不断扩散和发展给各个行业带来了革命性的变化。毫无疑问,这个领域最令人兴奋的部分之一是强化学习(RL)。这本身往往是许多通用人工智能应用程序的基础,例如学习玩视频游戏或下棋的软件。强化学习的好处是,假设可以将问题建模为包含操作、环境和代理的框架,那么代理就可以熟悉大量的任务。假设,解决问题的范围可以从简单的游戏,更复杂的3d游戏,自动驾驶汽车教学如何挑选和减少乘客在各种不同的地方以及教一个机械手臂如何把握对象和地点在厨房柜台上。

第二章 强化学习算法

读者应该知道,我们将利用各种深度学习和强化学习的方法在这本书。然而,由于我们的重点将转移到讨论实现和这些算法如何在生产环境中工作,我们必须花一些时间来更详细地介绍算法本身。因此,本章的重点将是引导读者通过几个强化学习算法的例子,通常应用和展示他们在使用Open AI gym 不同的问题。

第三章 强化学习算法:Q学习及其变体

随着策略梯度和Actor-Critic模型的初步讨论的结束,我们现在可以讨论读者可能会发现有用的替代深度学习算法。具体来说,我们将讨论Q学习、深度Q学习以及深度确定性策略梯度。一旦我们了解了这些,我们就可以开始处理更抽象的问题,更具体的领域,这将教会用户如何处理不同任务的强化学习。

第四章 通过强化学习做市场

除了在许多书中发现的强化学习中的一些标准问题之外,最好看看那些答案既不客观也不完全解决的领域。在金融领域,尤其是强化学习领域,最好的例子之一就是做市。我们将讨论学科本身,提出一些不基于机器学习的基线方法,然后测试几种基于强化学习的方法。

第五章 自定义OpenAI强化学习环境

在我们的最后一章,我们将专注于Open AI Gym,但更重要的是尝试理解我们如何创建我们自己的自定义环境,这样我们可以处理更多的典型用例。本章的大部分内容将集中在我对开放人工智能的编程实践的建议,以及我如何编写这个软件的建议。最后,在我们完成创建环境之后,我们将继续集中精力解决问题。对于这个例子,我们将集中精力尝试创建和解决一个新的视频游戏。

成为VIP会员查看完整内容
0
78

题目: Reinforcement Learning:Theory and Algorithms

简介:

强化学习是近几年研究的热点,特别是伴随DeepMind AlphaGo的出现名声大噪。强化学习(RL)是一种机器学习范式,在这种范式中,agent从经验中学习完成顺序决策任务,RL在机器人、控制、对话系统、医疗等领域有广泛的应用。《强化学习:理论与算法》这本书讲述了强化学习最新进展,包括MDP、样本复杂度、策略探索、PG、值函数等关键议题,是了解强化学习的材料。

章节:

  • 第一章:马尔科夫决策过程MDP 预介绍
  • 第二章:生成模型的样本复杂度
  • 第三章:强化学习的策略探索
  • 第四章:策略梯度方法
  • 第五章:值函数近似
  • 第六章:RL的战略探索和丰富的观测资料
  • 第七章:行为克隆和学徒学习

作者简介:

Alekh Agarwal目前是微软人工智能研究中心的研究员,领导强化学习研究小组。之前,在加州大学伯克利分校获得计算机科学博士学位后,与彼得·巴特利特(Peter Bartlett)和马丁·温赖特(Martin Wainwright)一起在纽约微软研究院(Microsoft Research)度过了六年美好的时光。

姜楠,UIUC助理教授,机器学习研究员。核心研究领域是强化学习(RL),关注于RL的样本效率,并利用统计学习理论中的思想来分析和开发RL算法。

沙姆·卡卡德(Sham M. Kakade)是华盛顿研究基金会(Washington Research Foundation)数据科学主席,同时在华盛顿大学(University of Washington)艾伦学院(Allen School)和统计学系任职。他致力于机器学习的理论基础,专注于设计(和实现)统计和计算效率的算法。

成为VIP会员查看完整内容
rl_monograph_AJK.pdf
0
72

书名题目

强化学习:理论与算法(Reinforcement Learning: Theory and Algorithms)

籍简介

本书由Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大师亲自执笔,为2019关于强化学习的最新书籍之一,三位作者来自于强化学习研究团队,是强化学习研究界“牛顿”级人物,成果斐然。本书采用深入浅出,引人入胜的方法,介绍了当前RL所取得的最新成果,对于刚从事RL的学者,可谓及时雨,神笔之作。

书籍作者

Alekh Agarwal,目前是微软研究人工智能的研究员,在那里我领导强化学习研究小组。此前,在加州大学伯克利分校获得计算机科学博士学位后,曾在微软研究院纽约实验室度过了六年时光,与彼得·巴特利特和马丁·温瑞格一起工作。 Sham M. Kakade ,研究机器学习和人工智能的数学基础,重点是设计可证明的高效和实用的算法,这些算法与广泛的范例相关。试图利用这些进步来帮助在核心人工智能问题上取得进展。目前的兴趣包括:强化学习和控制表征学习和自然语言处理和记忆。

成为VIP会员查看完整内容
强化学习:理论与算法.pdf
0
50

题目: A Survey and Critique of Multiagent Deep Reinforcement Learning

简介: 近年来,深度强化学习(RL)取得了出色的成绩。这使得应用程序和方法的数量急剧增加。最近的工作探索了单智能体深度强化之外的学习,并考虑了多智能体深度强化学习的场景。初步结果显示在复杂的多智能体领域中的成功,尽管有许多挑战需要解决。本文的主要目的是提供有关当前多智能体深度强化学习(MDRL)文献的概述。此外,我们通过更广泛的分析对概述进行补充:(i)我们回顾了以前RL中介绍的基础内容,并强调了它们如何适应多智能深度强化学习设置。 (ii)我们为该领域的新开业者提供一般指导:描述从MDRL工作中汲取的经验教训,指出最新的基准并概述研究途径。 (iii)我们提出了MDRL的实际挑战(例如,实施和计算需求)。

作者介绍: Pablo Hernandez-Leal,Borealis AI的研究员,在此之前,曾与Michael Kaisers一起参与过阿姆斯特丹CWI的智能和自治系统。研究方向:单智能体环境开发的算法以及多智能体。计划开发一种算法,该算法使用博弈论,贝叶斯推理和强化学习中的模型和概念在战略交互中得到使用。

成为VIP会员查看完整内容
0
61
小贴士
相关资讯
强化学习精品书籍
平均机器
8+阅读 · 2019年1月2日
强化学习十大原则
专知
5+阅读 · 2018年9月17日
一文了解强化学习
AI100
10+阅读 · 2018年8月20日
吴恩达机器学习课程
平均机器
6+阅读 · 2018年2月5日
【RL前沿】深度强化学习的最新进展
量化投资与机器学习
8+阅读 · 2017年12月18日
【强化学习】强化学习+深度学习=人工智能
产业智能官
39+阅读 · 2017年8月11日
相关论文
Financial Time Series Representation Learning
Philippe Chatigny,Jean-Marc Patenaude,Shengrui Wang
10+阅读 · 2020年3月27日
Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey
Sanmit Narvekar,Bei Peng,Matteo Leonetti,Jivko Sinapov,Matthew E. Taylor,Peter Stone
11+阅读 · 2020年3月10日
Borja Ibarz,Jan Leike,Tobias Pohlen,Geoffrey Irving,Shane Legg,Dario Amodei
4+阅读 · 2018年11月15日
Brett Daley,Christopher Amato
3+阅读 · 2018年10月23日
Ashvin Nair,Vitchyr Pong,Murtaza Dalal,Shikhar Bahl,Steven Lin,Sergey Levine
8+阅读 · 2018年7月12日
Yeonwoo Jeong,Hyun Oh Song
6+阅读 · 2018年5月15日
Ermo Wei,Drew Wicke,David Freelan,Sean Luke
10+阅读 · 2018年4月25日
Yu-Xiong Wang,Ross Girshick,Martial Hebert,Bharath Hariharan
14+阅读 · 2018年4月3日
Ju Dai,Pingping Zhang,Huchuan Lu,Hongyu Wang
5+阅读 · 2018年2月22日
Hyrum S. Anderson,Anant Kharkar,Bobby Filar,David Evans,Phil Roth
3+阅读 · 2018年1月30日
Top