【导读】佛罗里达大学电子与计算机工程系教授Sean Meyn撰写的新书稿《强化学习与控制系统》,重点讲述了与强化学习最相关的控制基础,以及基于这些基础的RL算法设计的大量工具。

Sean Meyn,佛罗里达大学电子与计算机工程系教授兼Robert C. Pittman杰出学者主席,认知与控制实验室主任,佛罗里达可持续能源研究所所长。Sean于1982年获得加利福尼亚大学洛杉矶分校数学学士学位,于1987年获得麦吉尔大学电子工程博士学位。他的学术研究兴趣包括决策和控制的理论与应用,随机过程和优化。他在这些主题上的研究获得了许多奖项,并且是IEEE会士。

http://www.meyn.ece.ufl.edu/

为了定义强化学习(RL),首先需要定义自动控制。例如,在你的日常生活中,可能包括你的汽车巡航控制,你的空调恒温器,冰箱和热水器,以及现代的衣物烘干机的决策规则。有收集数据的传感器,有收集数据以了解世界状态的计算机”(汽车以正确的速度行驶吗?毛巾还湿吗?),根据这些测量结果,由计算机驱动的算法会发出命令来调整需要调整的东西:油门、风扇速度、加热盘管电流,或者……更令人兴奋的例子包括太空火箭、人造器官和微型机器人来进行手术。RL的目标是真正自动的自动控制:没有任何物理学或生物学或医学知识,RL算法调整自己成为一个超级控制器: 最平稳的飞行进入太空,和最专业的微型外科医生! 这个梦想在大多数应用中肯定是遥不可及的,但最近的成功故事鼓舞了工业界、科学家和新一代学生。继2015年击败欧洲围棋冠军樊麾之后,DeepMind的AlphaGo再次刷新了世界纪录。不久之后的新闻是令人震惊的AlphaZero续集,它在“没有任何专家帮助的情况下”自学下国际象棋和围棋。这在现在看来已经不是什么新鲜事了,似乎每个月都会有新的突破。

今天的强化学习有两个同等重要的基础: 1. 最优控制:两个最著名的RL算法,TD-和q -学习,都是关于逼近最优控制的核心价值函数。2. 统计和信息理论。RL中的loration是本书的一大焦点,它强调了最优控制的几何性质,以及为什么创建可靠的学习算法并不困难。我们不会忽视第二个基础: 动机和成功的启发式将在不深入研究理论的情况下进行解释。读者将学到足够的知识,开始尝试自制的计算机代码,并拥有一个大的算法设计选择库。在完成这本书的一半之前,我希望学生能对为什么这些算法被期望是有用的以及为什么它们有时会失败有一个扎实的理解。

本书的重点是与强化学习最相关的控制基础,以及基于这些基础的RL算法设计的大量工具。

成为VIP会员查看完整内容
0
65

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

这本书调研了大约20世纪90年代末机器学习的许多重要课题。我的意图是在理论和实践之间寻求一个中间桥梁带。笔记集中在机器学习的重要思想上——它既不是一本实践手册,也不是一个理论证明的概要。我的目标是为读者提供充分的准备,使一些关于机器学习的广泛文献易于理解。草稿只有200多页(包括扉页)。

这本书集中在机器学习的重要思想上。对于我所陈述的许多定理,我并没有给出证明,但对于形式的证明,我确实给出了可信的论据和引用。而且,我没有讨论许多在应用中具有实际重要性的问题;这本书不是机器学习实践手册。相反,我的目标是为读者提供充分的准备,使大量关于机器学习的文献易于理解。

学习,就像智力一样,涵盖了如此广泛的过程,很难精确定义。词典的定义包括这样的短语:“通过学习、指导或经验获得知识、或理解、或技能”和“通过经验改变行为倾向”。动物学家和心理学家研究动物和人类的学习。在这本书中,我们关注的是机器学习。动物和机器学习之间有一些相似之处。当然,机器学习的许多技术都来自心理学家的努力,他们通过计算模型使动物和人类学习的理论更加精确。机器学习研究人员正在探索的概念和技术似乎也可能阐明生物学习的某些方面。

成为VIP会员查看完整内容
0
40

本课程关注控制理论和强化学习的理论介绍,侧重于连续状态空间以及物理世界和机器人技术的应用。我们强调计算效率的算法和可证明的界。特别关注RL中非随机控制和遗憾最小化的新方法。我们将与该领域的经典方法论进行比较和对比。

本课程的练习和项目将需要用python编写代码。

这门课程对所有学生开放,但要求有很强的数学背景。

https://sites.google.com/view/cos59x-cct/home

深度学习的先驱、图灵奖获得者Yann Lecun教授有一种非常简洁明了地抓住问题症结的气质。2020年2月左右,他在巴巴多斯研讨会上说,

“控制=梯度强化学习”。

强化学习和控制理论的关键区别在于它们所操作的空间。强化学习的范围通常位于离散状态空间(如围棋、国际象棋),而控制理论通常处理涉及物理和连续空间(如机器人)的问题。物理学和结构环境的知识使我们能够利用差分信息。

后者允许我们使用强大的数学优化和凸松弛技术来设计高效的算法。这是自适应非随机控制理论的主题,也是本课程的主题。

成为VIP会员查看完整内容
0
32

这本书是关于运用机器和深度学习来解决石油和天然气行业的一些挑战。这本书开篇简要讨论石油和天然气勘探和生产生命周期中不同阶段的数据流工业操作。这导致了对一些有趣问题的调查,这些问题很适合应用机器和深度学习方法。最初的章节提供了Python编程语言的基础知识,该语言用于实现算法;接下来是监督和非监督机器学习概念的概述。作者提供了使用开源数据集的行业示例以及对算法的实际解释,但没有深入研究所使用算法的理论方面。石油和天然气行业中的机器学习涵盖了包括地球物理(地震解释)、地质建模、油藏工程和生产工程在内的各种行业主题。

在本书中,重点在于提供一种实用的方法,提供用于实现机器的逐步解释和代码示例,以及用于解决油气行业现实问题的深度学习算法。

你将学到什么

  • 了解石油和天然气行业的端到端的行业生命周期和数据流
  • 了解计算机编程和机器的基本概念,以及实现所使用的算法所需的深度学习
  • 研究一些有趣的行业问题,这些问题很有可能被机器和深度学习解决
  • 发现在石油和天然气行业中执行机器和深度学习项目的实际考虑和挑战

这本书是给谁的

  • 石油和天然气行业的专业人员,他们可以受益于对机器的实际理解和解决现实问题的深度学习方法。
成为VIP会员查看完整内容
0
65

这是一本关于理论计算机科学的本科入门课程的教科书。这本书的教育目的是传达以下信息:

• 这种计算出现在各种自然和人为系统中,而不仅仅是现代的硅基计算机中。 • 类似地,除了作为一个极其重要的工具,计算也作为一个有用的镜头来描述自然,物理,数学,甚至社会概念。 • 许多不同计算模型的普遍性概念,以及代码和数据之间的二元性相关概念。 • 一个人可以精确地定义一个计算的数学模型,然后用它来证明(有时只是猜测)下界和不可能的结果。 • 现代理论计算机科学的一些令人惊讶的结果和发现,包括np完备性的流行、交互作用的力量、一方面的随机性的力量和另一方面的去随机化的可能性、在密码学中“为好的”使用硬度的能力,以及量子计算的迷人可能性。

成为VIP会员查看完整内容
0
64

凸优化研究在凸集上最小化凸函数的问题。凸性,连同它的许多含义,已经被用来为许多类凸程序提出有效的算法。因此,凸优化已经广泛地影响了科学和工程的几个学科。

过去几年,凸优化算法彻底改变了离散和连续优化问题的算法设计。对于图的最大流、二部图的最大匹配和子模函数最小化等问题,已知的最快算法涉及到对凸优化算法的基本和重要使用,如梯度下降、镜像下降、内点方法和切割平面方法。令人惊讶的是,凸优化算法也被用于设计离散对象(如拟阵)的计数问题。同时,凸优化算法已经成为许多现代机器学习应用的中心。由于输入实例越来越大、越来越复杂,对凸优化算法的需求也极大地推动了凸优化技术本身的发展。

这本书的目的是使读者能够获得对凸优化算法的深入理解。重点是从第一性原理推导出凸优化的关键算法,并根据输入长度建立精确的运行时间界限。由于这些方法的广泛适用性,一本书不可能向所有人展示这些方法的应用。这本书展示了各种离散优化和计数问题的快速算法的应用。本书中所选的应用程序的目的是为了说明连续优化和离散优化之间的一个相当令人惊讶的桥梁。

目标受众包括高级本科生、研究生和理论计算机科学、离散优化和机器学习方面的研究人员。

https://convex-optimization.github.io/

第一章-连续优化和离散优化的衔接

我们提出了连续优化和离散优化之间的相互作用。最大流问题是一个激励人心的例子。我们也追溯了线性规划的历史——从椭球法到现代内点法。最后介绍了椭球法在求解最大熵问题等一般凸规划问题上的一些最新成果。

第二章 预备知识

我们复习这本书所需的数学基础知识。这些内容包括多元微积分、线性代数、几何、拓扑、动力系统和图论中的一些标准概念和事实。

第三章-凸性

我们引入凸集,凸性的概念,并展示了伴随凸性而来的能力:凸集具有分离超平面,子梯度存在,凸函数的局部最优解是全局最优解。

第四章-凸优化与效率

我们提出了凸优化的概念,并正式讨论了它意味着什么,有效地解决一个凸程序作为一个函数的表示长度的输入和期望的精度。

第五章-对偶性与最优性

我们引入拉格朗日对偶性的概念,并证明在一个称为Slater条件的温和条件下,强拉格朗日对偶性是成立的。随后,我们介绍了拉格朗日对偶和优化方法中经常出现的Legendre-Fenchel对偶。最后,给出了Kahn-Karush-Tucker(KKT)最优性条件及其与强对偶性的关系。

第六章-梯度下降

我们首先介绍梯度下降法,并说明如何将其视为最陡下降。然后,我们证明了梯度下降法在函数的梯度是连续的情况下具有收敛时间界。最后,我们使用梯度下降法提出了一个快速算法的离散优化问题:计算最大流量无向图。

第七章-镜像下降和乘法权值更新

我们推出我们的凸优化的第二个算法-称为镜面下降法-通过正则化观点。首先,提出了基于概率单纯形的凸函数优化算法。随后,我们展示了如何推广它,重要的是,从它推导出乘法权值更新(MWU)方法。然后利用后一种算法开发了一个快速的近似算法来解决图上的二部图匹配问题。

第八章-加速梯度下降

提出了Nesterov的加速梯度下降算法。该算法可以看作是前面介绍的梯度下降法和镜像下降法的混合。我们还提出了一个应用加速梯度法求解线性方程组。

第九章-牛顿法

IWe开始了设计凸优化算法的旅程,其迭代次数与误差成对数关系。作为第一步,我们推导并分析了经典的牛顿方法,这是一个二阶方法的例子。我们认为牛顿方法可以被看作是黎曼流形上的最速下降,然后对其收敛性进行仿射不变分析。

第十章 线性规划的内点法

利用牛顿法及其收敛性,推导出一个线性规划的多项式时间算法。该算法的关键是利用障碍函数的概念和相应的中心路径,将有约束优化问题简化为无约束优化问题。

第十一章-内点法的变种与自洽

给出了线性规划中路径遵循IPM的各种推广。作为应用,我们推导了求解s-t最小代价流问题的快速算法。随后,我们引入了自一致性的概念,并给出了多边形和更一般凸集的障碍函数的概述。

第十二章 线性规划的椭球法

介绍了凸优化的一类切割平面方法,并分析了一种特殊情况,即椭球体法。然后,我们展示了如何使用这个椭球方法来解决线性程序超过0-1多边形时,我们只能访问一个分离oracle的多边形。

第十三章-凸优化的椭球法

我们展示了如何适应椭球法求解一般凸程序。作为应用,我们提出了子模函数最小化的多项式时间算法和计算组合多边形上的最大熵分布的多项式时间算法。

成为VIP会员查看完整内容
0
106

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
107

强化一词来源于实验心理学中对动物学习的研究,它指的是某一事件的发生,与某一反应之间有恰当的关系,而这一事件往往会增加该反应在相同情况下再次发生的可能性。虽然心理学家没有使用“强化学习”这个术语,但它已经被人工智能和工程领域的理论家广泛采用,用来指代基于这一强化原理的学习任务和算法。最简单的强化学习方法使用的是一个常识,即如果一个行为之后出现了一个令人满意的状态,或者一个状态的改善,那么产生该行为的倾向就会得到加强。强化学习的概念在工程领域已经存在了几十年(如Mendel和McClaren 1970),在人工智能领域也已经存在了几十年(Minsky 1954, 1961;撒母耳1959;图灵1950)。然而,直到最近,强化学习方法的发展和应用才在这些领域占据了大量的研究人员。激发这种兴趣的是两个基本的挑战:1) 设计能够在复杂动态环境中在不确定性下运行的自主机器人代理,2) 为非常大规模的动态决策问题找到有用的近似解。

成为VIP会员查看完整内容
0
146
小贴士
相关VIP内容
专知会员服务
40+阅读 · 3月31日
专知会员服务
42+阅读 · 3月30日
专知会员服务
32+阅读 · 2020年12月24日
专知会员服务
54+阅读 · 2020年11月12日
专知会员服务
65+阅读 · 2020年11月3日
专知会员服务
64+阅读 · 2020年9月17日
专知会员服务
106+阅读 · 2020年9月1日
专知会员服务
146+阅读 · 2020年4月19日
相关论文
Claudio D. T. Barros,Matheus R. F. Mendonça,Alex B. Vieira,Artur Ziviani
0+阅读 · 7月22日
Claire Chainais-Hillairet,Maxime Herda,Simon Lemaire,Julien Moatti
0+阅读 · 7月21日
Zijun Wu,Rolf H. Moehring,Chunying Ren,Dachuan Xu
0+阅读 · 7月19日
Wang Chi Cheung,David Simchi-Levi,Ruihao Zhu
0+阅读 · 7月17日
Jere Koskela,Paul A. Jenkins,Adam M. Johansen,Dario Spano
0+阅读 · 7月16日
Guan-Horng Liu,Tianrong Chen,Evangelos A. Theodorou
5+阅读 · 2020年6月29日
Joseph Y. Halpern
4+阅读 · 2019年9月30日
Top