强化学习和最优控制是解决动态系统决策问题的两种方法,分别从数据驱动和模型驱动的角度出发。现代应用这些方法的场景往往涉及高维状态和动作空间,因此开发高效的高维算法至关重要。本篇论文旨在从两个角度来应对这一挑战。在第一部分中,我们分析了强化学习在一般再生核希尔伯特空间(RKHS)中的样本复杂性。我们关注一类马尔可夫决策过程,其中奖励函数位于RKHS的单位球内,而转移概率位于任意集合中。我们引入了一个称为分布不匹配下的扰动复杂性的量,用于描述在给定尺度下RKHS中的扰动所导致的可接受状态-动作分布空间的复杂性。我们证明了这个量不仅为所有可能算法的误差提供了下界,还为解决强化学习问题的两种特定算法提供了上界。因此,扰动复杂性随着给定尺度的衰减,衡量了强化学习问题的难度。我们进一步提供了一些具体例子,并讨论了这些例子中扰动复杂性是否迅速衰减。在第二部分中,我们介绍了一种高效学习高维闭环最优控制的算法。该方法是从最近提出的基于监督学习的方法进行改进的,该方法利用强大的开环最优控制求解器生成训练数据,并使用神经网络作为高效的高维函数逼近器来拟合闭环最优控制。这种方法成功地处理了某些高维最优控制问题,但在更具挑战性的问题上表现仍然不佳。其中一个关键原因是由受控动力学引起的所谓分布不匹配现象。在本篇论文中,我们对这一现象进行了研究,并提出了初始值问题增强采样方法来缓解这个问题。我们进一步证明了所提出的采样策略在经过测试的控制问题上显著提高了性能,包括经典的线性二次调节器、四旋翼飞行器的最优着陆问题以及7自由度机械臂的最优达到问题。强化学习和最优控制是两个不同的领域,它们都专注于动态系统的最优决策。强化学习是数据驱动的,旨在在未知环境中学习最优策略,以最大化累积奖励。最优控制是模型驱动的,旨在基于动态系统的数学模型找到给定系统的最优控制策略。在强化学习中,智能体与环境进行交互,通过奖励形式的反馈来改进策略。它不需要对系统进行显式建模,直接从数据中进行学习。强化学习算法已成功应用于各种领域,如视频游戏[60]、围棋[80]、机器人技术[45]等。另一方面,最优控制使用模型来预测动态系统在不同控制策略下的行为,并通过优化预定义的成本函数来找到最优策略。这种方法可以对系统进行精确控制,并考虑系统的约束条件。它在机器人技术[52]、航空航天[55]等领域有广泛的应用。现代强化学习和最优控制的应用往往涉及高维状态空间和动作空间,这使得问题的解决变得非常困难。自从Bellman以来,人们就意识到解决高维闭环最优控制问题是一项艰巨的任务[7]。广泛使用的术语“维度诅咒”最初是为了强调这些困难[7]。因此,从业者通常不得不采用不受控制的近似方法,比如假设值函数或策略函数具有特定的低维结构,以满足实际需求[72]。然而,机器学习的出现带来了新的希望,因为深度神经网络能够高效地逼近高维函数。这使得结合深度神经网络的强化学习和最优控制算法能够解决许多高维问题,包括围棋[80]和50维随机控制问题[35]。在这篇论文中,我们将讨论高维强化学习和最优控制的两个重要主题。在第一部分中,我们将分析在一般再生核希尔伯特空间(RKHS)中强化学习的样本复杂性。RKHS是在核方法研究中引入的数学概念,与神经网络密切相关,这在之前的神经切线核和Barron空间的研究中得到了证实。因此,理解在RKHS中强化学习的样本复杂性是理解高维强化学习问题的关键一步。我们考虑一类马尔可夫决策过程M,其中奖励函数位于RKHS的单位球内,转移概率位于给定的任意集合中。为了描述对RKHS中尺度为ϵ的扰动所产生的可接受状态-动作分布空间的复杂性,我们定义了一个称为分布不匹配下的扰动复杂性∆M(ϵ)的量。我们展示了∆M(ϵ)既给出了所有可能算法的误差下界,也给出了两种具体算法——拟合奖励算法和拟合Q迭代算法——对于强化学习问题的上界。因此,∆M(ϵ)随着ϵ的衰减衡量了在M上强化学习问题的难度。我们进一步证明了扰动复杂性与常用于研究RKHS中强化学习样本复杂性的集中系数和特征值衰减有关。作为副产品,我们还表明当奖励函数位于高维RKHS中时,即使转移概率是已知的且动作空间是有限的,强化学习问题仍然可能受到维度诅咒的影响。这一部分主要基于我的先前工作[53]。

在第二部分中,我们提出了一种用于高维系统闭环最优控制学习的高效算法。该方法基于一种监督学习方法,利用开环最优控制求解器生成训练数据,并使用神经网络作为高维函数逼近器来拟合闭环最优控制。虽然这种方法成功地处理了某些高维最优控制问题,但在更具挑战性的问题上表现较差,主要是由于受控动态引起的分布不匹配现象。该现象指的是训练数据的状态分布与由神经网络控制器生成的状态分布之间的差异通常会随着时间的推移而增加,导致训练数据不能很好地代表使用训练后的神经网络控制器时遇到的状态。 为了解决这个问题,我们提出了初始值问题增强采样方法。在这种方法中,我们通过解初始值问题迭代地重新评估神经网络控制器到达的状态,并通过解以这些状态为起点的开环控制问题来重新计算新的训练数据。我们从理论上证明了这种采样策略在经典的线性二次调节器上的改进效果与总时间持续时间成比例。我们进一步通过数值实验证明了所提出的采样策略在经过测试的控制问题上显著提高了性能,包括四旋翼飞行器的最优着陆问题和7自由度机械臂的最优达到问题。这一部分主要基于我的先前工作[92]。

成为VIP会员查看完整内容
44

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【普林斯顿博士论文】智能体和机制的学习算法,201页pdf
【爱丁堡大学博士论文】图聚类结构的学习,164页pdf
专知会员服务
37+阅读 · 2023年1月5日
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
77+阅读 · 2022年10月19日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
52+阅读 · 2022年9月3日
专知会员服务
34+阅读 · 2021年7月19日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员