机器人研究的一个长期目标是创建能够从零开始自动学习复杂控制策略的算法。将这种算法应用到机器人上的挑战之一是表示的选择。强化学习(RL)算法已经成功地应用于许多不同的机器人任务中,如带有机器人手臂的cup中的Ball-in-a-Cup任务和各种机器人世界杯机器人足球启发的领域。然而,RL算法仍然存在训练时间长、所需训练数据量大的问题。为状态空间、行动空间和策略选择合适的表示可以大大减少所需的训练时间和所需的训练数据。

本文主要研究机器人的深度强化学习。具体来说,状态空间、动作空间和策略表示的选择如何减少机器人学习任务的训练时间和样本复杂度。特别集中注意两个主要领域: 1)通过张量状态-动作空间表示 2)多状态表示的辅助任务学习

第一个领域探索了在环境变化中改进机器人策略迁移的方法。学习策略的成本可能很高,但是如果策略可以在类似的环境中传输和重用,那么训练成本可以平摊。迁移学习是一个被广泛研究的领域,涉及多种技术。在这篇论文中,我们着重设计一个易于传输的表示。我们的方法将状态空间和动作空间映射为多维张量,设计成当环境中机器人和其他对象的数量变化时保持固定维数。我们还提出了全卷积Q-Network (FCQN)策略表示,这是一种特殊的网络架构,与张量表示相结合,允许跨环境大小进行零距离传输。我们在模拟的单代理和多代理任务上演示了这种方法,灵感来自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我们还表明,在真实世界的传感器数据和机器人中使用这样的表示和模拟训练策略是可能的。

第二个领域考察了一个机器人深度RL状态表示的优势如何弥补另一个机器人深度RL状态表示的劣势。例如,我们经常想要利用机器人可用的传感器来学习任务,其中包括像摄像机这样的高维传感器。最近的Deep RL算法可以通过图像进行学习,但是数据的数量对于真实的机器人来说是难以接受的。或者,可以使用任务完成所需的最小集创建状态。这样做的好处是:1)减少策略参数的数量,2)删除不相关的信息。然而,提取这些特征通常会在工程、额外硬件、校准和实验室之外的脆弱性方面有很大的成本。我们在仿真和现实世界的多个机器人平台和任务上演示了这一点。我们证明它在模拟的RoboCup小型联赛(SSL)机器人上工作。我们还演示了这样的技术允许在真实的硬件上从零开始学习,通过机器人手臂执行一个球在一个杯子的任务。

https://www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

成为VIP会员查看完整内容
0
55

相关内容

卡耐基梅隆大学(Carnegie Mellon University)坐落在宾夕法尼亚州的匹兹堡,是一所享誉世界的私立顶级研究型大学,学校面积不大,学科门类不多,但在其所设立的几乎所有专业都居于世界领先水平。卡内基梅隆大学享誉全国的认知心理学、管理和公共关系学、写作和修辞学、应用历史学、哲学和生物科学专业。它的计算机、机器人科学、理学、美术及工业管理都是举世公认的一流专业。

与经典的监督学习不同,强化学习(RL)从根本上是交互式的: 一个自主的智能体必须学习如何在一个未知的、不确定的、可能是对抗的环境中表现,通过与环境的积极互动来收集有用的反馈,以提高其序列决策能力。RL代理还将干预环境: 代理做出决策,进而影响环境的进一步演化。

由于它的普遍性——大多数机器学习问题可以看作是特殊情况——RL很难。由于没有直接的监督,RL的一个主要挑战是如何探索未知的环境并有效地收集有用的反馈。在最近的RL成功案例中(如视频游戏中的超人表现[Mnih et al., 2015]),我们注意到它们大多依赖于随机探索策略,如“贪婪”。同样的,策略梯度法如REINFORCE [Williams, 1992],通过向动作空间注入随机性进行探索,希望随机性能导致良好的动作序列,从而获得高总回报。理论RL文献已经开发出了更复杂的算法来进行有效的探索(例如,[Azar等人,2017]),然而,这些接近最优算法的样本复杂度必须根据底层系统的关键参数(如状态和动作空间的维数)呈指数级增长。这种指数依赖性阻碍了这些理论上优雅的RL算法在大规模应用中的直接应用。总之,如果没有进一步的假设,无论在实践上还是在理论上,RL都是困难的。

在本文中,我们试图通过引入额外的假设和信息源来获得对RL问题的支持。本文的第一个贡献是通过模仿学习来提高RL样本的复杂度。通过利用专家的示范,模仿学习极大地简化了探索的任务。在本论文中,我们考虑了两种设置:一种是交互式模仿学习设置,即在训练期间专家可以进行查询;另一种是仅通过观察进行模仿学习的设置,在这种设置中,我们只有一组由对专家状态的观察组成的演示(没有记录专家行为)。我们在理论和实践中研究如何模仿专家,以减少样本的复杂性相比,纯RL方法。第二个贡献来自于无模型的强化学习。具体来说,我们通过构建一个从策略评估到无后悔在线学习的总体约简来研究策略评估,无后悔在线学习是一个活跃的研究领域,具有良好的理论基础。这样的约减创造了一个新的算法族,可以在生成过程的非常弱的假设下证明正确的策略评估。在此基础上,对行动空间和参数空间两种无模型勘探策略进行了理论和实证研究。这项工作的第三个贡献来自基于模型的强化学习。我们提供了基于模型的RL方法和一般无模型的RL方法之间的第一个指数样本复度分离。然后,我们提供了基于PAC模型的RL算法,可以同时实现对许多有趣的MDPs的采样效率,如表列MDPs、因子MDPs、Lipschitz连续MDPs、低秩MDPs和线性二次控制。通过将最优控制、模型学习和模仿学习结合在一起,我们还提供了一个更实用的基于模型的RL框架,称为双重策略迭代(DPI)。此外,我们给出了一个通用的收敛分析,将现有的近似策略迭代理论推广到DPI。DPI对最近成功的实用RL算法如ExIt和AlphaGo Zero进行了概括和提供了第一个理论基础[Anthony et al., 2017, Silver et al., 2017],并为统一基于模型的RL方法和无模型的RL方法提供了一种理论健全和实践高效的方法。

https://www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

成为VIP会员查看完整内容
0
51

摘要

本文综述了迁移学习在强化学习问题设置中的应用。RL已经成为序列决策问题的关键的解决方案。随着RL在各个领域的快速发展。包括机器人技术和游戏,迁移学习是通过利用和迁移外部专业知识来促进学习过程来帮助RL的一项重要技术。在这篇综述中,我们回顾了在RL领域中迁移学习的中心问题,提供了一个最先进技术的系统分类。我们分析他们的目标,方法,应用,以及在RL框架下这些迁移学习技术将是可接近的。本文从RL的角度探讨了迁移学习与其他相关话题的关系,并探讨了RL迁移学习的潜在挑战和未来发展方向。

关键词:迁移学习,强化学习,综述,机器学习

介绍

强化学习(RL)被认为是解决连续决策任务的一种有效方法,在这种方法中,学习主体通过与环境相互作用,通过[1]来提高其性能。源于控制论并在计算机科学领域蓬勃发展的RL已被广泛应用于学术界和工业界,以解决以前难以解决的任务。此外,随着深度学习的快速发展,应用深度学习服务于学习任务的集成框架在近年来得到了广泛的研究和发展。DL和RL的组合结构称为深度强化学习[2](Deep Reinforcement Learning, DRL)。

DRL在机器人控制[3]、[4]、玩[5]游戏等领域取得了巨大的成功。在医疗保健系统[6]、电网[7]、智能交通系统[8]、[9]等领域也具有广阔的应用前景。

在这些快速发展的同时,DRL也面临着挑战。在许多强化学习应用中,环境模型通常是未知的,只有收集到足够的交互经验,agent才能利用其对环境的知识来改进其性能。由于环境反馈的部分可观察性、稀疏性或延迟性以及高维观察和/或行动空间等问题,学习主体在没有利用任何先验知识的情况下寻找好的策略是非常耗时的。因此,迁移学习作为一种利用外部专业知识来加速学习过程的技术,在强化学习中成为一个重要的课题。

在监督学习(SL)领域[10]中,TL得到了广泛的研究。与SL场景相比,由于MDP环境中涉及的组件更多,RL中的TL(尤其是DRL中的TL)通常更复杂。MDP的组件(知识来自何处)可能与知识转移到何处不同。此外,专家知识也可以采取不同的形式,以不同的方式转移,特别是在深度神经网络的帮助下。随着DRL的快速发展,以前总结用于RL的TL方法的努力没有包括DRL的最新发展。注意到所有这些不同的角度和可能性,我们全面总结了在深度强化学习(TL in DRL)领域迁移学习的最新进展。我们将把它们分成不同的子主题,回顾每个主题的理论和应用,并找出它们之间的联系。

本综述的其余部分组织如下:在第2节中,我们介绍了强化学习的背景,关键的DRL算法,并带来了这篇综述中使用的重要术语。我们还简要介绍了与TL不同但又紧密相关的相关研究领域(第2.3节)。

在第3节中,我们采用多种视角来评价TL方法,提供了对这些方法进行分类的不同方法(第3.1节),讨论了迁移源和目标之间的潜在差异(第3.2节),并总结了评价TL有效性的常用指标(第3.3节)。

第4节详细说明了DRL领域中最新的TL方法。特别是,所讨论的内容主要是按照迁移知识的形式组织的,如成型的奖励(4.1节)、先前的演示(4.2节)、专家策略(4.3节),或者按照转移发生的方式组织的,如任务间映射(4.4节)、学习可转移表示(4.5节和4.6节)等。我们在第5节讨论了TL在DRL中的应用,并在第6节提供了一些值得研究的未来展望。

成为VIP会员查看完整内容
0
80

导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。

DRL的主要问题之一是需要具有数百万次重复试验的不同实验设置。这显然是不可行的,从一个真实的机器人通过试验和错误,所以我们反而从一个模拟的环境学习。这就引出了第一个基本问题,即弥合从模拟环境到真实环境的现实差距,该问题将在第3章讨论。我们把重点放在单眼视觉避障的特殊挑战上,把它作为一个低级的导航原语。我们开发了一种DRL方法,它在模拟世界中训练,但可以很好地推广到现实世界。

在现实世界中限制移动机器人采用DRL技术的另一个问题是训练策略的高度差异。这导致了较差的收敛性和较低的整体回报,由于复杂和高维搜索空间。在第4章中,我们利用简单的经典控制器为DRL的局部导航任务提供指导,避免了纯随机的初始探索。我们证明,这种新的加速方法大大减少了样本方差,并显著增加了可实现的平均回报。

我们考虑的最后一个挑战是无上限导航的稀疏视觉制导。在第五章,我们提出了一种创新的方法来导航基于几个路点图像,而不是传统的基于视频的教学和重复。我们证明,在模拟中学习的策略可以直接转移到现实世界,并有能力很好地概括到不可见的场景与环境的最小描述。

我们开发和测试新的方法,以解决障碍规避、局部引导和全球导航等关键问题,实现我们的愿景,实现实际的机器人导航。我们将展示如何将DRL作为一种强大的无模型方法来处理这些问题

成为VIP会员查看完整内容
0
57

【简介】随着深度表示学习的发展,强化学习(RL)已经成为了一个强大的学习框架,其可以在高维度空间中学习复杂的规则。这篇综述总结了深度强化学习(DRL)算法,提供了采用强化学习的自动驾驶任务的分类方法,重点介绍了算法上的关键挑战和在现实世界中将强化学习部署在自动驾驶方面的作用,以及最终评估,测试和加强强化学习和模仿学习健壮性的现有解决方案。

论文链接: https://arxiv.org/abs/2002.00444

介绍:

自动驾驶(AD)系统由多个感知级任务组成,由于采用了深度学习架构,这些任务现在已经达到了很高的精度。除了感知任务之外,自主驾驶系统还包含多个其他任务,传统的监督学习方法已经不再适用。首先,当对agent行为的预测发生变化时,从自动驾驶agent所处的环境中接收到的未来传感器观察到的结果,例如获取市区最佳驾驶速度的任务。其次,监督信号(如碰撞时间(TTC),相对于agent最佳轨迹的侧向误差)表示agent的动态变化以及环境中的不确定性。这些问题都需要定义随机损失函数来使其最大化。最后,agent需要学习当前环境新的配置参数,预测其所处的环境中每一时刻的最优决策。这表明在观察agent和其所处环境的情况下,一个高维度的空间能够给出大量唯一的配置参数。在这些场景中,我们的目标是解决一个连续决策的问题。在这篇综述中,我们将介绍强化学习的概念,强化学习是一种很有前景的解决方案和任务分类方法,特别是在驱动策略、预测感知、路径规划以及低层控制器设计等领域。我们还重点回顾了强化学习在自动驾驶领域当中各种现实的应用。最后,我们通过阐述应用当前诸如模仿学习和Q学习等强化学习算法时所面临的算力挑战和风险来激励使用者对强化学习作出改进。

章节目录:

section2: 介绍一个典型的自动驾驶系统及其各个组件。

section3: 对深度强化学习进行介绍,并简要讨论关键概念。

section4: 探讨在强化学习基本框架上对其进行更深层次,更加复杂的扩展。

section5: 对强化学习用于自动驾驶领域的所面临的问题提供一个概述。

section6: 介绍将强化学习部署到真实世界自动驾驶系统中所面临的挑战。

section7: 总结

成为VIP会员查看完整内容
0
92

2019年是深度强化学习(DRL)研究的重要一年,也是我在这一领域读博士的第一年。像每一个博士新手一样,我花了很多时间来阅读论文,实施一些有趣的想法,对重大问题有自己的看法。在这篇博客文章中,我想分享一些我从2019年文献中总结出来的亮点。

为了让这篇文章有更多的结构,我决定把论文分成5个主要类别,并选出一个冠军和亚军。进一步说,这是我2019年的十大DRL论文。

第一类: 大型项目

深度RL (如ATARI DQNs、AlphaGo/Zero)在2019年之前的大部分突破性成果,都是在行动空间有限、状态空间完全可见、授信时间尺度适中的领域中取得的。局部可见性、长时间尺度以及巨大的动作空间仍然是虚幻的。另一方面,2019年证明了我们离将函数逼近与基于奖励的目标优化相结合的极限还很远。诸如《雷神之锤3》/《夺旗》、《星际争霸2》、《Dota 2》以及机器人手操作等挑战只是现代DRL能够解决的一部分令人兴奋的新领域。我试图根据科学贡献而不是现有算法的大规模扩展来选择第一类的获胜者。每个人如果有足够的计算能力-都可以做PPO一样的疯狂的事情。

DeepMind AlphaStar (Vinyals et al, 2019)

DeepMind的AlphaStar项目由Oriol Vinyals领导。在阅读《自然》杂志的论文时,我意识到这个项目很大程度上是基于FTW设置来处理Quake III: 将分布式IMPALA的角色-学习者设置与诱导结构化探索的强大先验相结合。

FTW使用基于两个LSTM的时间尺度层次结构的先验,而AlphaStar则使用人工示范。专家演示通过KL目标的监督最小化来预先训练代理的策略,并提供有效的正则化来确保代理的探索行为不会被星际争霸的维度诅咒所淹没。但这绝不是全部。科学贡献包括一个独特的版本虚构self-play(又名联盟),一个自回归分解与指针的策略策网络,上行策略更新的进化(UPGO - V-trace Off-Policy重要性抽样修正结构化操作空间)以及分散连接(一种特殊形式的嵌入,维护实体的空间相干映射层)。就我个人而言,我非常喜欢DeepMind,尤其是Oriol Vinyals对星际争霸社区的关心。很多时候,科幻小说让我们误以为电影是一场军备竞赛。但它是人为旨在提高我们的生活质量。

地址

https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning

OpenAI’s Solving’ of the Rubik’s Cube (OpenAI, 2019)

众所周知,深度学习能够解决需要提取和操作高级特征的任务。另一方面,低水平的灵活性,一种对我们来说很自然的能力,为当前的系统提供了一个主要的挑战。OpenAI灵巧性的贡献中,我最喜欢的是自动领域随机化(ADR):在机器人任务上训练深度RL代理的一个关键挑战是将仿真中所学到的知识转移到物理机器人上。模拟器只能捕获现实世界中有限的一组机制&精确地模拟摩擦需要计算时间。时间是昂贵的,否则可以用来在环境中产生更多的(但嘈杂的)过渡。提出了一种基于区域随机化的鲁棒策略。与用一组生成环境的超参数在单一环境中训练代理不同,该代理被训练在大量不同的配置上。ADR旨在设计一个环境复杂性的课程,以最大限度地提高学习进度。ADR根据agent的学习过程自动增加或减少可能的环境配置范围,为agent提供了一个伪自然课程。令人惊讶的是,这(加上基于ppo - lstm - gae的策略)导致了一种元学习形式,这种形式(到发布时)似乎还没有完全达到它的能力。Twitter上有很多关于“解决”这个词的讨论。该算法没有“完全”学习端到端解决一个立方体的正确的移动序列是什么,然后做所需的灵巧操作。但说实话,更令人印象深刻的是:用疯狂的奖励稀疏的手操作,还是学习一个相当短的符号转换序列?Woj Zaremba在2019年NeurIPS的“学习可转移技能”研讨会上提到,他们花了一天时间用DRL“解决立方体”&完全端到端的整个谜题是可能的。这是令人印象深刻。

第二类: 基于模型的强化学习 Model-based RL

虽然前两个项目令人兴奋地展示了DRL的潜力,但它们的采样效率低得可笑。我不想知道OpenAI和DeepMind必须支付电费是多少。有一些人通过在潜在空间中虚幻来提高样本(但不一定是计算)的效率,这是件好事。传统上,基于模型的RL一直在努力学习高维状态空间的动力学。通常,大量的模型容量不得不“浪费”在与状态空间无关的部分(例如,一个ATARI帧的最外层像素),而这与成功很少相关。最近,在一个抽象的空间里有很多关于规划/想象的提议。这是我最喜欢的两种方法:

MuZero (Schrittwieser et al., 2019)

  • Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, Timothy P. Lillicrap, David Silver:

  • Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model. CoRR abs/1911.08265 (2019)

MuZero提供了从AlphaGo/AlphaZero项目中删除约束的下一个迭代。具体来说,它克服了过渡动力学的认可。因此,“通用MCTS +函数逼近工具箱”可用于更一般的问题设置,如基于视觉的问题(如ATARI)。

** Dreamer (aka. PlaNet 2.0; Hafner et al., 2019)**

另一方面,“Dreamer”为连续的动作空间提供了原则性的扩展,能够驯服基于高维视觉输入的长视距任务。将表征学习问题分解为迭代学习一个表征、转换和奖励模型。通过使用想象的轨迹训练一个基于行为-临界的策略来交错整个优化过程。Dreamer通过一个世界模型的想象轨迹来传播学习状态值的“分析”梯度。更具体地说,利用再参数化技术,通过神经网络预测,可以有效地传播多步收益的随机梯度。该方法在DeepMind控制套件中进行了评估,能够基于64×64×3维视觉输入控制行为。最后,作者还比较了不同的表示学习方法(奖励预测、像素重建和对比估计/观察重建),结果表明像素重建通常优于对比估计。

Danijar Hafner, Timothy P. Lillicrap, Jimmy Ba, Mohammad Norouzi: Dream to Control: Learning Behaviors by Latent Imagination. CoRR abs/1912.01603 (2019)

第三类: 多代理强化学习 Multi-Agent RL

代理超越了简单的中央控制模式。我们的日常生活充满了需要预期和心理理论的情况。我们不断假设其他人的反应,并根据最近的证据重新调整我们的信念。通过梯度下降法进行的朴素独立优化容易陷入局部最优。这一点在一个简单的两个GAN特工训练的社会中已经很明显了。联合学习导致了环境中的一种非平稳性,这是多智能体RL (MARL)的核心挑战。两篇精选的MARL论文强调了两个中心观点:从经典的集中训练+分散控制范式转向社会奖励塑造&自我游戏的规模化使用和意想不到的结果。

第四类: 学习动力学 Learning Dynamics

深层RL的学习动力学还远远没有被理解。与监督学习不同的是,在某种程度上,训练数据是给定的,并被视为IID(独立且同分布),RL需要一个代理来生成它们自己的训练数据。这可能会导致严重的不稳定性(例如致命的黑社会),任何玩弄过DQNs的人都会有这样的经历。仍然有一些重大的理论突破围绕着新的发现(如神经切线内核)。动力学类的两名获奖者突出了基于记忆的元学习(比RL更普遍)和基于策略的RL的基本特征。

第五类: Compositionality & Priors 组合性&先验

一种获得有效和快速适应的代理的方法是知情先验。与基于非信息性知识库的学习不同,agent可以依赖于之前以先验分布的形式提取的知识,但是如何才能获得这些知识呢?以下两篇论文提出了两种截然不同的方法:不确定目标的默认策略的同时学习&学习能够代表大量专家行为的密集嵌入空间。

结论

在整个2019年里,深度RL的巨大潜力在以前无法想象的领域得到了展现。重点介绍的大型项目还远远没有达到实地效率。但是这些问题正在被当前寻找有效的归纳偏差、先验和基于模型的方法所解决。

我对2020年将会发生的事情感到兴奋&我相信这是一个在这一领域的绝佳时机。有很多主要的问题,但是一个人所能产生的影响是相当大的。没有比现在更好的生活时机了。

References

1.Vinyals, O., I. Babuschkin, W. M. Czarnecki, M. Mathieu, A. Dudzik, J. Chung, D. H. Choi, et al. (2019): “Grandmaster level in StarCraft II using multi-agent reinforcement learning,”Nature, 575, 350–54.

2.Akkaya, I., M. Andrychowicz, M. Chociej, M. Litwin, B. McGrew, A. Petron, A. Paino, et al. (2019): “Solving Rubik’s Cube with a Robot Hand,” arXiv preprint arXiv:1910.07113, .

3.Schrittwieser, J., I. Antonoglou, T. Hubert, K. Simonyan, L. Sifre, S. Schmitt, A. Guez, et al. (2019): “Mastering atari, go, chess and shogi by planning with a learned model,” arXiv preprint arXiv:1911.08265, .

4.Hafner, D., T. Lillicrap, J. Ba, and M. Norouzi. (2019): “Dream to Control: Learning Behaviors by Latent Imagination,” arXiv preprint arXiv:1912.01603, .

5.Jaques, N., A. Lazaridou, E. Hughes, C. Gulcehre, P. Ortega, D. Strouse, J. Z. Leibo, and N. De Freitas. (2019): “Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning,” International Conference on Machine Learning, .

6.Baker, B., I. Kanitscheider, T. Markov, Y. Wu, G. Powell, B. McGrew, and I. Mordatch. (2019): “Emergent tool use from multi-agent autocurricula,” arXiv preprint arXiv:1909.07528, .

7.Rabinowitz, N. C. (2019): “Meta-learners’ learning dynamics are unlike learners,’” arXiv preprint arXiv:1905.01320, .

8.Schaul, T., D. Borsa, J. Modayil, and R. Pascanu. (2019): “Ray Interference: a Source of Plateaus in Deep Reinforcement Learning,” arXiv preprint arXiv:1904.11455, .

9.Galashov, A., S. M. Jayakumar, L. Hasenclever, D. Tirumala, J. Schwarz, G. Desjardins, W. M. Czarnecki, Y. W. Teh, R. Pascanu, and N. Heess. (2019): “Information asymmetry in KL-regularized RL,” arXiv preprint arXiv:1905.01240, .

10.Merel, J., L. Hasenclever, A. Galashov, A. Ahuja, V. Pham, G. Wayne, Y. W. Teh, and N. Heess. (2018): “Neural probabilistic motor primitives for humanoid control,” arXiv preprint arXiv:1811.11711, .

11.Lowe, R., Y. Wu, A. Tamar, J. Harb, O. A. I. P. Abbeel, and I. Mordatch. (2017): “Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments,” Advances in Neural Information Processing Systems, .

12.Saxe, A. M., J. L. McClelland, and S. Ganguli. (2013): “Exact solutions to the nonlinear dynamics of learning in deep linear neural networks,” arXiv preprint arXiv:1312.6120, .

13.Rahaman, N., A. Baratin, D. Arpit, F. Draxler, M. Lin, F. A. Hamprecht, Y. Bengio, and A. Courville. (2018): “On the spectral bias of neural networks,” arXiv preprint arXiv:1806.08734, .

14.Wang, J. X., Z. Kurth-Nelson, D. Tirumala, H. Soyer, J. Z. Leibo, R. Munos, C. Blundell, D. Kumaran, and M. Botvinick. “Learning to reinforcement learn, 2016,” arXiv preprint arXiv:1611.05763, .

成为VIP会员查看完整内容
0
47

论文题目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

导师:Pieter Abbeel and Sergey Levine

网址:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要:

在本文中,我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法,以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先,最优策略是随机的,改进了搜索,防止了收敛到局部最优,特别是当目标是多模态的时候。其次,熵项提供了正则化,与确定性方法相比,具有更强的一致性和鲁棒性。第三,最大熵策略是可组合的,即可以组合两个或两个以上的策略,并且所得到的策略对于组成任务奖励的总和是近似最优的。第四,最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中,我们将讨论由最大熵策略固有的随机特性所支持的扩展,包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。

成为VIP会员查看完整内容
0
35

作者Jacob Andreas是自然语言处理的研究者,研究兴趣为用语言作为更有效学习的支架和理解模型行为的探针,以及结合深度表示和离散组合性优点的结构化神经方法。近期公开发布了他的博士论文。

博士论文介绍:

本文探讨了语言结构在结构和参数化中用于语言处理和其他应用的机器学习模型的方法。作者将该模型应用于问答系统,指令跟踪,图像分类等多种任务。

作者首先介绍一类称为神经模块网络(NMN)的模型,并介绍它们在自然语言问答中的应用。NMN旨在实现同时利用深层网络的表征能力和构成问题的语言结构。我们的方法将问题分解为语言子结构,并使用这些子结构动态地从可重复使用的模块库构建网络。由此产生的复合网络是共同训练的。作者并在含有图像和结构化知识库的问答数据集上的方法评估模型。随后,作者将这种思想转移到策略学习中,研究在面对不同但相似的问题时,怎么组合策略。

成为VIP会员查看完整内容
0
32

题目: A Survey and Critique of Multiagent Deep Reinforcement Learning

简介: 近年来,深度强化学习(RL)取得了出色的成绩。这使得应用程序和方法的数量急剧增加。最近的工作探索了单智能体深度强化之外的学习,并考虑了多智能体深度强化学习的场景。初步结果显示在复杂的多智能体领域中的成功,尽管有许多挑战需要解决。本文的主要目的是提供有关当前多智能体深度强化学习(MDRL)文献的概述。此外,我们通过更广泛的分析对概述进行补充:(i)我们回顾了以前RL中介绍的基础内容,并强调了它们如何适应多智能深度强化学习设置。 (ii)我们为该领域的新开业者提供一般指导:描述从MDRL工作中汲取的经验教训,指出最新的基准并概述研究途径。 (iii)我们提出了MDRL的实际挑战(例如,实施和计算需求)。

作者介绍: Pablo Hernandez-Leal,Borealis AI的研究员,在此之前,曾与Michael Kaisers一起参与过阿姆斯特丹CWI的智能和自治系统。研究方向:单智能体环境开发的算法以及多智能体。计划开发一种算法,该算法使用博弈论,贝叶斯推理和强化学习中的模型和概念在战略交互中得到使用。

成为VIP会员查看完整内容
0
92
小贴士
相关VIP内容
专知会员服务
51+阅读 · 2020年9月28日
专知会员服务
80+阅读 · 2020年9月20日
专知会员服务
92+阅读 · 2020年2月8日
专知会员服务
113+阅读 · 2020年2月1日
专知会员服务
47+阅读 · 2020年1月16日
专知会员服务
92+阅读 · 2019年8月30日
相关论文
Kamran Kowsari,Kiana Jafari Meimandi,Mojtaba Heidarysafa,Sanjana Mendu,Laura E. Barnes,Donald E. Brown
11+阅读 · 2020年5月20日
Aravind Srinivas,Michael Laskin,Pieter Abbeel
13+阅读 · 2020年4月28日
Monocular Plan View Networks for Autonomous Driving
Dequan Wang,Coline Devin,Qi-Zhi Cai,Philipp Krähenbühl,Trevor Darrell
5+阅读 · 2019年5月16日
Theo Ryffel,Andrew Trask,Morten Dahl,Bobby Wagner,Jason Mancuso,Daniel Rueckert,Jonathan Passerat-Palmbach
4+阅读 · 2018年11月13日
Liang Yao,Chengsheng Mao,Yuan Luo
12+阅读 · 2018年9月15日
CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving
Xiaodan Liang,Tairui Wang,Luona Yang,Eric Xing
5+阅读 · 2018年7月10日
Using General Adversarial Networks for Marketing: A Case Study of Airbnb
Richard Diehl Martinez,John Kaleialoha Kamalu
3+阅读 · 2018年6月29日
Felix Kreuk,Assi Barak,Shir Aviv-Reuven,Moran Baruch,Benny Pinkas,Joseph Keshet
4+阅读 · 2018年5月13日
Ferenc Galkó,Carsten Eickhoff
9+阅读 · 2018年1月9日
Junxuan Chen,Baigui Sun,Hao Li,Hongtao Lu,Xian-Sheng Hua
4+阅读 · 2016年9月20日
Top
微信扫码咨询专知VIP会员