题目: Reinforcement Learning:Theory and Algorithms

简介:

强化学习是近几年研究的热点,特别是伴随DeepMind AlphaGo的出现名声大噪。强化学习(RL)是一种机器学习范式,在这种范式中,agent从经验中学习完成顺序决策任务,RL在机器人、控制、对话系统、医疗等领域有广泛的应用。《强化学习:理论与算法》这本书讲述了强化学习最新进展,包括MDP、样本复杂度、策略探索、PG、值函数等关键议题,是了解强化学习的材料。

章节:

  • 第一章:马尔科夫决策过程MDP 预介绍
  • 第二章:生成模型的样本复杂度
  • 第三章:强化学习的策略探索
  • 第四章:策略梯度方法
  • 第五章:值函数近似
  • 第六章:RL的战略探索和丰富的观测资料
  • 第七章:行为克隆和学徒学习

作者简介:

Alekh Agarwal目前是微软人工智能研究中心的研究员,领导强化学习研究小组。之前,在加州大学伯克利分校获得计算机科学博士学位后,与彼得·巴特利特(Peter Bartlett)和马丁·温赖特(Martin Wainwright)一起在纽约微软研究院(Microsoft Research)度过了六年美好的时光。

姜楠,UIUC助理教授,机器学习研究员。核心研究领域是强化学习(RL),关注于RL的样本效率,并利用统计学习理论中的思想来分析和开发RL算法。

沙姆·卡卡德(Sham M. Kakade)是华盛顿研究基金会(Washington Research Foundation)数据科学主席,同时在华盛顿大学(University of Washington)艾伦学院(Allen School)和统计学系任职。他致力于机器学习的理论基础,专注于设计(和实现)统计和计算效率的算法。

成为VIP会员查看完整内容
rl_monograph_AJK.pdf
0
54

相关内容

姜楠,UIUC助理教授,机器学习研究员。核心研究领域是强化学习(RL),关注于RL的样本效率,并利用统计学习理论中的思想来分析和开发RL算法。

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
52

摘要:

本文将优化描述为一个过程。在许多实际应用中,环境是如此复杂,以致于无法制定一个全面的理论模型,并使用经典算法理论和数学优化。采取一种稳健的方法是必要的,也是有益的,方法是应用一种不断学习的优化方法,在观察到问题的更多方面时从经验中学习。这种将优化视为一个过程的观点在各个领域都很突出,并在建模和系统方面取得了一些惊人的成功,现在它们已经成为我们日常生活的一部分。

作者介绍:

Elad Hazan是普林斯顿大学计算机科学教授。他于2015年从Technion毕业,当时他是该校运筹学副教授。他的研究重点是机器学习和优化的基本问题的算法设计和分析。他的贡献包括合作开发用于训练学习机器的AdaGrad算法,以及第一个用于凸优化的次线性时间算法。他曾(两次)获得2012年IBM Goldberg最佳论文奖,以表彰他对机器学习的次线性时间算法的贡献。2008年,他还获得了欧洲研究理事会(European Research Council)的一笔拨款、玛丽•居里(Marie Curie)奖学金和谷歌研究奖(两次)。他是计算学习协会的指导委员会成员,并担任COLT 2015的项目主席。

https://www.cs.princeton.edu/~ehazan/

成为VIP会员查看完整内容
0
84

讲座题目

深强化学习及其在交通运输中的应用:Deep Reinforcement Learning with Applications in Transportation

讲座简介

交通领域,特别是移动共享领域,有许多传统上具有挑战性的动态决策问题,这些问题有很长的研究文献,很容易从人工智能(AI)中受益匪浅。一些核心例子包括在线乘车命令调度,它将可用的驾驶员与在共享平台上请求乘客的行程实时匹配;路线规划,它规划行程的起点和终点之间的最佳路线;交通信号控制,它动态和自适应地调整实现低延迟的区域。所有这些问题都有一个共同的特点,即当我们关注某一特定时间范围内的一些累积目标时,需要做出一系列的决定。强化学习(RL)是一种机器学习范式,它通过与环境的交互和获取反馈信号,训练agent学会在环境中采取最佳行动(以获得的总累积回报衡量)。因此,它是一类求解序列决策问题的优化方法。

讲座嘉宾

Jen-Tzung Chien在台湾新竹国立清华大学取得电机工程博士学位。现任职于台湾新竹国立交通大学电子及电脑工程学系及电脑科学系讲座教授。2010年,他担任IBM沃森研究中心的客座教授。他的研究兴趣包括机器学习、深度学习、自然语言处理和计算机视觉。在2011年获得了IEEE自动语音识别和理解研讨会的最佳论文奖,并在2018年获得了AAPM Farrington Daniels奖。2015年,剑桥大学出版社出版《贝叶斯语音与语言处理》;2018年,学术出版社出版《源分离与机器学习》。他目前是IEEE信号处理技术委员会机器学习的当选成员。

成为VIP会员查看完整内容
0
20

书名题目

强化学习:理论与算法(Reinforcement Learning: Theory and Algorithms)

籍简介

本书由Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大师亲自执笔,为2019关于强化学习的最新书籍之一,三位作者来自于强化学习研究团队,是强化学习研究界“牛顿”级人物,成果斐然。本书采用深入浅出,引人入胜的方法,介绍了当前RL所取得的最新成果,对于刚从事RL的学者,可谓及时雨,神笔之作。

书籍作者

Alekh Agarwal,目前是微软研究人工智能的研究员,在那里我领导强化学习研究小组。此前,在加州大学伯克利分校获得计算机科学博士学位后,曾在微软研究院纽约实验室度过了六年时光,与彼得·巴特利特和马丁·温瑞格一起工作。 Sham M. Kakade ,研究机器学习和人工智能的数学基础,重点是设计可证明的高效和实用的算法,这些算法与广泛的范例相关。试图利用这些进步来帮助在核心人工智能问题上取得进展。目前的兴趣包括:强化学习和控制表征学习和自然语言处理和记忆。

成为VIP会员查看完整内容
强化学习:理论与算法.pdf
0
42

作者介绍: Cornelius Weber拥有德国比勒费尔德大学的物理学博士学位。 他于2000年在德国柏林的柏林工业大学获得计算机科学博士学位。他是德国University of Hamburg知识技术小组的实验室主任。 他曾是美国纽约州罗彻斯特大学的脑与认知科学博士后研究员。 从2002年到2005年,他在英国桑德兰大学担任混合智能系统研究科学家。在2010年之前,他是法兰克福高级研究所的资深研究员。他目前的研究兴趣包括计算神经科学,重点是视觉,无监督学习和强化学习。

简要介绍: 大脑统治着整个世界,类脑计算越来越多地用于计算机和电子设备中。 类脑计算是关于处理和解释数据或直接提出并执行动作。 学习是一个非常重要的方面。 这本书是关于强化学习的,涉及为实现目标而采取的行动。 本书的前11章介绍并扩展了强化学习的范围。 其余11章表明,在许多领域中已经有了广泛的使用。 增强学习可以解决对于传统的手工设计的非学习控制器来说过于复杂的控制任务。 由于学习计算机可以处理技术复杂性,因此操作人员的任务仍然是在越来越高的水平上指定目标。 本书表明,强化学习在理论和应用方面是一个非常活跃的领域,它将激发并鼓励该领域的新研究。

下载链接: https://pan.baidu.com/s/19M6dsNWn90kutFTynqKZjQ

提取码:mivq

成为VIP会员查看完整内容
0
23

机器学习是计算机科学发展最快的领域之一,有着广泛的应用。这本教科书的目的是以一种有原则的方式介绍机器学习和它提供的算法范例。这本书提供了一个基本的理论基础的机器学习和数学推导,将这些原则转化为实际的算法。在介绍了基础知识之后,这本书涵盖了以前教科书没有涉及到的一系列广泛的中心主题。这些包括讨论学习的计算复杂性和凸性和稳定性的概念;重要的算法范例包括随机梯度下降、神经网络和结构化输出学习;以及新兴的理论概念,如PAC-Bayes方法和基于压缩的边界。为高级本科生或刚开始的研究生设计,文本使学生和非专业读者在统计,计算机科学,数学和工程的机器学习的基础和算法。

成为VIP会员查看完整内容
understanding-machine-learning-theory-algorithms.pdf
0
79

强化学习导论第二版全新出炉。本书,由麻省理工大学出版社出版,预计于11月开印。它的电子版目前已经被作者公开,让我们可以在出版前,抢先阅读。

下载链接:https://pan.baidu.com/s/1BMy9seCGx_SlTHZRhpfdlA 密码:ka1a

成为VIP会员查看完整内容
0
46

主题: Introduction to Machine Learning

课程简介: 机器学习是指通过经验自动提高性能的计算机程序(例如,学习识别人脸、推荐音乐和电影以及驱动自主机器人的程序)。本课程从不同的角度介绍机器学习的理论和实用算法。主题包括贝叶斯网络、决策树学习、支持向量机、统计学习方法、无监督学习和强化学习。本课程涵盖理论概念,例如归纳偏差、PAC学习框架、贝叶斯学习方法、基于边际的学习和Occam的剃刀。编程作业包括各种学习算法的实际操作实验。这门课程的目的是让一个研究生在方法论,技术,数学和算法方面有一个彻底的基础,目前需要的人谁做的机器学习的研究。

邀请嘉宾: Hal Daumé III,纽约市微软研究院的研究员,是机器学习小组的一员;他也是马里兰大学的副教授。他主要从事自然语言处理和机器学习。

Matt Gormley,卡内基梅隆大学计算机科学学院机器学习部(ML)助教。

Roni Rosenfeld,卡内基梅隆大学计算机学院机器学习系教授兼主任,个人主页:https://www.cs.cmu.edu/~roni/。等

成为VIP会员查看完整内容
0
20
小贴士
相关VIP内容
专知会员服务
33+阅读 · 2019年8月30日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
20+阅读 · 2019年8月26日
相关论文
Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey
Sanmit Narvekar,Bei Peng,Matteo Leonetti,Jivko Sinapov,Matthew E. Taylor,Peter Stone
10+阅读 · 3月10日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
55+阅读 · 2019年12月19日
Deep Reinforcement Learning: An Overview
Yuxi Li
8+阅读 · 2018年11月26日
Brett Daley,Christopher Amato
3+阅读 · 2018年10月23日
Jingkang Wang,Yang Liu,Bo Li
3+阅读 · 2018年10月5日
Benjamin Recht
3+阅读 · 2018年6月25日
Ermo Wei,Drew Wicke,David Freelan,Sean Luke
5+阅读 · 2018年4月25日
Hyrum S. Anderson,Anant Kharkar,Bobby Filar,David Evans,Phil Roth
3+阅读 · 2018年1月30日
Sungwoon Choi,Heonseok Ha,Uiwon Hwang,Chanju Kim,Jung-Woo Ha,Sungroh Yoon
4+阅读 · 2018年1月17日
Top