与经典的监督学习不同,强化学习(RL)从根本上是交互式的: 一个自主的智能体必须学习如何在一个未知的、不确定的、可能是对抗的环境中表现,通过与环境的积极互动来收集有用的反馈,以提高其序列决策能力。RL代理还将干预环境: 代理做出决策,进而影响环境的进一步演化。

由于它的普遍性——大多数机器学习问题可以看作是特殊情况——RL很难。由于没有直接的监督,RL的一个主要挑战是如何探索未知的环境并有效地收集有用的反馈。在最近的RL成功案例中(如视频游戏中的超人表现[Mnih et al., 2015]),我们注意到它们大多依赖于随机探索策略,如“贪婪”。同样的,策略梯度法如REINFORCE [Williams, 1992],通过向动作空间注入随机性进行探索,希望随机性能导致良好的动作序列,从而获得高总回报。理论RL文献已经开发出了更复杂的算法来进行有效的探索(例如,[Azar等人,2017]),然而,这些接近最优算法的样本复杂度必须根据底层系统的关键参数(如状态和动作空间的维数)呈指数级增长。这种指数依赖性阻碍了这些理论上优雅的RL算法在大规模应用中的直接应用。总之,如果没有进一步的假设,无论在实践上还是在理论上,RL都是困难的。

在本文中,我们试图通过引入额外的假设和信息源来获得对RL问题的支持。本文的第一个贡献是通过模仿学习来提高RL样本的复杂度。通过利用专家的示范,模仿学习极大地简化了探索的任务。在本论文中,我们考虑了两种设置:一种是交互式模仿学习设置,即在训练期间专家可以进行查询;另一种是仅通过观察进行模仿学习的设置,在这种设置中,我们只有一组由对专家状态的观察组成的演示(没有记录专家行为)。我们在理论和实践中研究如何模仿专家,以减少样本的复杂性相比,纯RL方法。第二个贡献来自于无模型的强化学习。具体来说,我们通过构建一个从策略评估到无后悔在线学习的总体约简来研究策略评估,无后悔在线学习是一个活跃的研究领域,具有良好的理论基础。这样的约减创造了一个新的算法族,可以在生成过程的非常弱的假设下证明正确的策略评估。在此基础上,对行动空间和参数空间两种无模型勘探策略进行了理论和实证研究。这项工作的第三个贡献来自基于模型的强化学习。我们提供了基于模型的RL方法和一般无模型的RL方法之间的第一个指数样本复度分离。然后,我们提供了基于PAC模型的RL算法,可以同时实现对许多有趣的MDPs的采样效率,如表列MDPs、因子MDPs、Lipschitz连续MDPs、低秩MDPs和线性二次控制。通过将最优控制、模型学习和模仿学习结合在一起,我们还提供了一个更实用的基于模型的RL框架,称为双重策略迭代(DPI)。此外,我们给出了一个通用的收敛分析,将现有的近似策略迭代理论推广到DPI。DPI对最近成功的实用RL算法如ExIt和AlphaGo Zero进行了概括和提供了第一个理论基础[Anthony et al., 2017, Silver et al., 2017],并为统一基于模型的RL方法和无模型的RL方法提供了一种理论健全和实践高效的方法。

https://www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

成为VIP会员查看完整内容
0
23

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

在生态学、流行病学和天文学等许多应用领域中,仿真模型被用来研究发生在自然界中的复杂现象。通常,这些模型的似然函数的分析形式要么是不可用的,要么是太昂贵而无法评估,从而使统计推断复杂化。无概率推理(LFI)方法,如近似贝叶斯计算(ABC),基于用模型的正演模拟代替难以处理的似然评估,已成为对仿真模型进行推理的一种流行方法。然而,当前的LFI方法在计算和统计方面存在一些挑战。特别是,标准的ABC算法需要大量的仿真,这使得它们在前向仿真代价昂贵的情况下不可行。

本文讨论了计算代价高的模型的无概率推理。主要贡献是基于高斯过程代理模型的LFI一致性框架。GP模型允许对仿真模型输出的平滑假设进行编码,以减少所需的仿真量。此外,由于模拟预算有限,所产生的基于模型的后验逼近的不确定性可以被量化。我们提出贝叶斯实验设计策略来选择评估地点,以使计算成本最小化。顺序设计(每次选择一个模拟)和批处理策略(允许利用并行计算)都是推导出来的。除了LFI场景外,本文提出的方法也适用于可能性可以评估但代价昂贵的情况。

本质上,所提出的框架可以被视为概率数值方法的LFI对等物,如贝叶斯优化,用于优化昂贵的目标函数,贝叶斯求积,用于计算昂贵函数的积分。我们通过大量的经验模拟证明了所提出的LFI方法的优点。文中还对所提算法进行了理论分析,并讨论了它们与其他GP代理方法的关系。

https://aaltodoc.aalto.fi/handle/123456789/46310

成为VIP会员查看完整内容
0
15

机器人研究的一个长期目标是创建能够从零开始自动学习复杂控制策略的算法。将这种算法应用到机器人上的挑战之一是表示的选择。强化学习(RL)算法已经成功地应用于许多不同的机器人任务中,如带有机器人手臂的cup中的Ball-in-a-Cup任务和各种机器人世界杯机器人足球启发的领域。然而,RL算法仍然存在训练时间长、所需训练数据量大的问题。为状态空间、行动空间和策略选择合适的表示可以大大减少所需的训练时间和所需的训练数据。

本文主要研究机器人的深度强化学习。具体来说,状态空间、动作空间和策略表示的选择如何减少机器人学习任务的训练时间和样本复杂度。特别集中注意两个主要领域: 1)通过张量状态-动作空间表示 2)多状态表示的辅助任务学习

第一个领域探索了在环境变化中改进机器人策略迁移的方法。学习策略的成本可能很高,但是如果策略可以在类似的环境中传输和重用,那么训练成本可以平摊。迁移学习是一个被广泛研究的领域,涉及多种技术。在这篇论文中,我们着重设计一个易于传输的表示。我们的方法将状态空间和动作空间映射为多维张量,设计成当环境中机器人和其他对象的数量变化时保持固定维数。我们还提出了全卷积Q-Network (FCQN)策略表示,这是一种特殊的网络架构,与张量表示相结合,允许跨环境大小进行零距离传输。我们在模拟的单代理和多代理任务上演示了这种方法,灵感来自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我们还表明,在真实世界的传感器数据和机器人中使用这样的表示和模拟训练策略是可能的。

第二个领域考察了一个机器人深度RL状态表示的优势如何弥补另一个机器人深度RL状态表示的劣势。例如,我们经常想要利用机器人可用的传感器来学习任务,其中包括像摄像机这样的高维传感器。最近的Deep RL算法可以通过图像进行学习,但是数据的数量对于真实的机器人来说是难以接受的。或者,可以使用任务完成所需的最小集创建状态。这样做的好处是:1)减少策略参数的数量,2)删除不相关的信息。然而,提取这些特征通常会在工程、额外硬件、校准和实验室之外的脆弱性方面有很大的成本。我们在仿真和现实世界的多个机器人平台和任务上演示了这一点。我们证明它在模拟的RoboCup小型联赛(SSL)机器人上工作。我们还演示了这样的技术允许在真实的硬件上从零开始学习,通过机器人手臂执行一个球在一个杯子的任务。

https://www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

成为VIP会员查看完整内容
0
30

导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。

DRL的主要问题之一是需要具有数百万次重复试验的不同实验设置。这显然是不可行的,从一个真实的机器人通过试验和错误,所以我们反而从一个模拟的环境学习。这就引出了第一个基本问题,即弥合从模拟环境到真实环境的现实差距,该问题将在第3章讨论。我们把重点放在单眼视觉避障的特殊挑战上,把它作为一个低级的导航原语。我们开发了一种DRL方法,它在模拟世界中训练,但可以很好地推广到现实世界。

在现实世界中限制移动机器人采用DRL技术的另一个问题是训练策略的高度差异。这导致了较差的收敛性和较低的整体回报,由于复杂和高维搜索空间。在第4章中,我们利用简单的经典控制器为DRL的局部导航任务提供指导,避免了纯随机的初始探索。我们证明,这种新的加速方法大大减少了样本方差,并显著增加了可实现的平均回报。

我们考虑的最后一个挑战是无上限导航的稀疏视觉制导。在第五章,我们提出了一种创新的方法来导航基于几个路点图像,而不是传统的基于视频的教学和重复。我们证明,在模拟中学习的策略可以直接转移到现实世界,并有能力很好地概括到不可见的场景与环境的最小描述。

我们开发和测试新的方法,以解决障碍规避、局部引导和全球导航等关键问题,实现我们的愿景,实现实际的机器人导航。我们将展示如何将DRL作为一种强大的无模型方法来处理这些问题

成为VIP会员查看完整内容
0
27

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
63

强化一词来源于实验心理学中对动物学习的研究,它指的是某一事件的发生,与某一反应之间有恰当的关系,而这一事件往往会增加该反应在相同情况下再次发生的可能性。虽然心理学家没有使用“强化学习”这个术语,但它已经被人工智能和工程领域的理论家广泛采用,用来指代基于这一强化原理的学习任务和算法。最简单的强化学习方法使用的是一个常识,即如果一个行为之后出现了一个令人满意的状态,或者一个状态的改善,那么产生该行为的倾向就会得到加强。强化学习的概念在工程领域已经存在了几十年(如Mendel和McClaren 1970),在人工智能领域也已经存在了几十年(Minsky 1954, 1961;撒母耳1959;图灵1950)。然而,直到最近,强化学习方法的发展和应用才在这些领域占据了大量的研究人员。激发这种兴趣的是两个基本的挑战:1) 设计能够在复杂动态环境中在不确定性下运行的自主机器人代理,2) 为非常大规模的动态决策问题找到有用的近似解。

成为VIP会员查看完整内容
0
92

【简介】随着深度表示学习的发展,强化学习(RL)已经成为了一个强大的学习框架,其可以在高维度空间中学习复杂的规则。这篇综述总结了深度强化学习(DRL)算法,提供了采用强化学习的自动驾驶任务的分类方法,重点介绍了算法上的关键挑战和在现实世界中将强化学习部署在自动驾驶方面的作用,以及最终评估,测试和加强强化学习和模仿学习健壮性的现有解决方案。

论文链接: https://arxiv.org/abs/2002.00444

介绍:

自动驾驶(AD)系统由多个感知级任务组成,由于采用了深度学习架构,这些任务现在已经达到了很高的精度。除了感知任务之外,自主驾驶系统还包含多个其他任务,传统的监督学习方法已经不再适用。首先,当对agent行为的预测发生变化时,从自动驾驶agent所处的环境中接收到的未来传感器观察到的结果,例如获取市区最佳驾驶速度的任务。其次,监督信号(如碰撞时间(TTC),相对于agent最佳轨迹的侧向误差)表示agent的动态变化以及环境中的不确定性。这些问题都需要定义随机损失函数来使其最大化。最后,agent需要学习当前环境新的配置参数,预测其所处的环境中每一时刻的最优决策。这表明在观察agent和其所处环境的情况下,一个高维度的空间能够给出大量唯一的配置参数。在这些场景中,我们的目标是解决一个连续决策的问题。在这篇综述中,我们将介绍强化学习的概念,强化学习是一种很有前景的解决方案和任务分类方法,特别是在驱动策略、预测感知、路径规划以及低层控制器设计等领域。我们还重点回顾了强化学习在自动驾驶领域当中各种现实的应用。最后,我们通过阐述应用当前诸如模仿学习和Q学习等强化学习算法时所面临的算力挑战和风险来激励使用者对强化学习作出改进。

章节目录:

section2: 介绍一个典型的自动驾驶系统及其各个组件。

section3: 对深度强化学习进行介绍,并简要讨论关键概念。

section4: 探讨在强化学习基本框架上对其进行更深层次,更加复杂的扩展。

section5: 对强化学习用于自动驾驶领域的所面临的问题提供一个概述。

section6: 介绍将强化学习部署到真实世界自动驾驶系统中所面临的挑战。

section7: 总结

成为VIP会员查看完整内容
0
41

论文题目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

导师:Pieter Abbeel and Sergey Levine

网址:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要:

在本文中,我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法,以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先,最优策略是随机的,改进了搜索,防止了收敛到局部最优,特别是当目标是多模态的时候。其次,熵项提供了正则化,与确定性方法相比,具有更强的一致性和鲁棒性。第三,最大熵策略是可组合的,即可以组合两个或两个以上的策略,并且所得到的策略对于组成任务奖励的总和是近似最优的。第四,最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中,我们将讨论由最大熵策略固有的随机特性所支持的扩展,包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。

成为VIP会员查看完整内容
0
18
小贴士
相关资讯
相关论文
Brian Ichter,Pierre Sermanet,Corey Lynch
0+阅读 · 10月13日
Mauricio Gonzalez-Soto,Ivan R. Feliciano-Avelino,L. Enrique Sucar,Hugo J. Escalante Balderas
0+阅读 · 10月13日
Pengpeng Liu,Xintong Han,Michael Lyu,Irwin King,Jia Xu
0+阅读 · 10月9日
Dmitrii Beloborodov,A. E. Ulanov,Jakob N. Foerster,Shimon Whiteson,A. I. Lvovsky
3+阅读 · 2月14日
Deep Learning in Video Multi-Object Tracking: A Survey
Gioele Ciaparrone,Francisco Luque Sánchez,Siham Tabik,Luigi Troiano,Roberto Tagliaferri,Francisco Herrera
28+阅读 · 2019年7月31日
Xuelong Li,Hongli Li,Yongsheng Dong
5+阅读 · 2019年7月29日
Finding Needles in a Moving Haystack: Prioritizing Alerts with Adversarial Reinforcement Learning
Liang Tong,Aron Laszka,Chao Yan,Ning Zhang,Yevgeniy Vorobeychik
3+阅读 · 2019年6月20日
Stephen Bonner,Flavian Vasile
13+阅读 · 2018年8月3日
Ermo Wei,Drew Wicke,David Freelan,Sean Luke
7+阅读 · 2018年4月25日
Xiangyu Zhao,Liang Zhang,Zhuoye Ding,Dawei Yin,Yihong Zhao,Jiliang Tang
12+阅读 · 2018年1月5日
Top