强化学习(RL)智能体需要探索他们的环境,以便通过试错学习最优策略。然而,当奖励信号稀疏,或当安全是一个关键问题和某些错误是不可接受的时候,探索是具有挑战性的。在本论文中,我们通过修改智能体解决的潜在优化问题,激励它们以更安全或更有效的方式探索,来解决深度强化学习设置中的这些挑战。

在这篇论文的第一部分,我们提出了内在动机的方法,在奖励稀少或缺乏的问题上取得进展。我们的第一种方法使用内在奖励来激励智能体访问在学习动力学模型下被认为是令人惊讶的状态,并且我们证明了这种技术比单纯探索更好。我们的第二种方法使用基于变分推理的目标,赋予个体不同的多种技能,而不使用特定任务的奖励。我们证明了这种方法,我们称为变分选择发现,可以用来学习运动行为的模拟机器人环境。

在论文的第二部分,我们重点研究了安全勘探中存在的问题。在广泛的安全强化学习研究的基础上,我们提出将约束的RL标准化为安全探索的主要形式; 然后,我们继续开发约束RL的算法和基准。我们的材料展示按时间顺序讲述了一个故事:我们首先介绍约束策略优化(Constrained Policy Optimization, CPO),这是约束深度RL的第一个算法,在每次迭代时都保证接近约束的满足。接下来,我们开发了安全健身基准,它让我们找到CPO的极限,并激励我们向不同的方向前进。最后,我们发展了PID拉格朗日方法,其中我们发现对拉格朗日原-对偶梯度基线方法进行小的修改,可以显著改善求解Safety Gym中约束RL任务的稳定性和鲁棒性。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

成为VIP会员查看完整内容
0
28

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

在21世纪,人们与技术互动的方式发生了重大变化,自然语言生成(NLG)发挥着核心作用。智能手机和智能家居设备的用户现在希望他们的设备能够了解他们的处境,并在交互中产生自然的语言输出。本文从人类沟通的三个方面来确定如何让机器听起来像人类——风格、内容和结构。本文提供了深度学习的解决方案来控制这些变量在神经文本生成。我首先概述了可以操纵的各种模块,以进行有效的可控文本生成。我提供了一种使用反向翻译进行样式转换的新颖解决方案,并引入了两个新任务,将来自非结构化文档的信息利用到生成过程中。我还为句子排序任务提供了一种新的优雅设计,以学习有效的文档结构。最后,我提供了一个关于可控制文本生成应用的伦理考虑的讨论。提出的工作,我计划:(I) 提供对各种可控文本生成技术的经验理解,(ii) 提供对样式的计算理解并构建有用的样式表示,(iii) 设计有效的内容基础生成方式,以及(iv) 探索可控文本生成的更广泛影响。

https://www.cs.cmu.edu/~sprabhum/

成为VIP会员查看完整内容
0
23

强化学习(RL)作为一种可行且强大的技术,正逐渐成为一种解决各种复杂业务问题的技术,这些问题涉及不确定条件下的连续优化决策。尽管RL被归类为机器学习(ML)的一个分支,但它往往与ML(监督学习和非监督学习)的其他分支有很大的不同。事实上,RL似乎掌握着开启人工智能前景的钥匙——机器可以根据观察到的异常信息调整决策,同时不断转向最佳结果。它在无人驾驶汽车、机器人和策略游戏等备受关注的问题上的应用,预示着未来RL算法将拥有远超人类的决策能力。但是当谈到RL的学习应用时,人们似乎不愿意直接进入。我们经常听到甚至技术人员声称RL涉及“高等数学”和“复杂工程”,所以似乎有一个心理障碍进入。虽然现实世界的RL算法和实现在克服众所周知的最后业务问题时确实变得相当复杂,但是RL的基础实际上不需要繁重的技术机器就可以学会。本书的核心目的是通过在理解的深度和保持基本技术内容之间找到平衡来揭开RL的神秘面纱。因此,我们将学习:

  • 您将了解简单而强大的马尔可夫决策过程(MDPs)理论——不确定情况下的序列最优决策框架。您将坚定地理解Bellman方程的力量,它是所有动态规划和所有RL算法的核心。

  • 您将掌握动态规划(DP)算法,这是一类(用人工智能的语言)规划算法。您将学习策略迭代、值迭代、逆向归纳、近似动态规划和广义策略迭代的重要概念,它是所有DP和所有RL算法的核心。

  • 您将获得各种强化学习(RL)算法的坚实的理解,从基本算法如SARSA和Q-Learning,并进入学习在实践中工作得很好的几个重要的算法,包括梯度时间差分,深度Q网络,最小二乘策略迭代,策略梯度,蒙特卡罗树搜索。您将了解如何利用bootstrapping、off-policy学习和基于深度神经网络的函数逼近在这些算法中获得优势。您还将学习如何平衡探索和利用Multi-Armed Bandits技术,如置信上限,汤普森采样,梯度盗匪和信息状态空间算法。

  • 您将练习大量的模型和算法的“从头开始”Python实现。贯穿全书,我们强调了良好的Python编程实践,包括接口设计、类型注释、函数式编程和基于继承的多态(始终确保编程原则反映数学原则)。从这本书中获得的更大的收获是一种将应用数学概念与软件设计范例相结合的罕见的(高需求的)能力。

成为VIP会员查看完整内容
0
73

强化学习定义了仅通过行动和观察来学习做出好的决策的代理所面临的问题。为了成为有效的问题解决器,这些代理必须能有效地探索广阔的世界,从延迟的反馈中分配信用,并归纳出新的经验,同时要利用有限的数据、计算资源和感知带宽。抽象对所有这些努力都是必要的。通过抽象,代理可以形成其环境的简洁模型,以支持一个理性的、自适应的决策者所需要的许多实践。在这篇论文中,我提出了强化学习中的抽象理论。首先,我提出了执行抽象过程的函数的三个要求:它们应该1)保持近似最优行为的表示,2) 有效地被学习和构造,3) 更低的规划或学习时间。然后,我提出了一套新的算法和分析,阐明了代理如何根据这些需求学习抽象。总的来说,这些结果提供了一条通向发现和使用抽象的部分路径,将有效强化学习的复杂性降到最低。

强化学习问题如下。RL代理通过以下两个离散步骤的无限重复与环境进行交互:

  1. 代理收到观察和奖励。
  2. 代理从这种交互中学习并执行一个动作。 这个过程如图1.2所示。在这种互动过程中,agent的目标是做出决策,使其获得的长期报酬最大化。

论文余下组织如下: 第1部分。在第2章中,我提供了关于RL(2.1节)以及状态抽象(2.2节)和动作抽象(2.3节)的必要背景知识。

第2部分。下一部分将专注于状态抽象。我提出了新的算法和三个紧密相连的分析集,每一个目标是发现满足引入的需求的状态抽象。在第3章中,我开发了一个形式化的框架来推理状态抽象,以保持近似最优的行为。这个框架由定理3.1总结,它强调了值保持状态抽象的四个充分条件。然后,在第4章中,我将这一分析扩展到终身RL设置,在终身RL设置中,代理必须不断地与不同的任务交互并解决不同的任务。本章的主要观点是介绍了用于终身学习设置的PAC状态抽象,以及澄清如何有效计算它们的结果。定理4.4说明了保证这些抽象保持良好行为的意义,定理4.5说明了有多少以前已解决的任务足以计算PAC状态抽象。我着重介绍了模拟实验的结果,这些结果说明了所介绍的状态抽象类型在加速学习和计划方面的效用。最后,第五章介绍了信息论工具对状态抽象的作用。我提出了状态抽象和率失真理论[283,43]和信息瓶颈方法[318]之间的紧密联系,并利用这种联系设计新的算法,以高效地构建状态抽象,优雅地在压缩和良好行为表示之间进行权衡。我以各种方式扩展了这个算法框架,说明了它发现状态抽象的能力,这些状态抽象提供了良好行为的样本高效学习。

第3部分。然后我转向行动抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了寻找尽可能快地做出计划的抽象动作的问题——主要结果表明,这个问题通常是NP困难的(在适当简化的假设下),甚至在多项式时间内很难近似。然后,在第7章中,我解决了在规划中伴随高层次行为构建预测模型的问题。这样的模型使代理能够估计在给定状态下执行行为的结果。在本章中,我将介绍并分析一个用于这些高级行为的新模型,并证明在温和的假设下,这个简单的替代仍然是有用的。我提供的经验证据表明,新的预测模型可以作为其更复杂的对等物的适当替代者。最后,在第8章中,我探讨了抽象行动改善探索过程的潜力。我描述了Jinnai等人开发的一种算法[145],该算法基于构建可以轻松到达环境所有部分的抽象行动的概念,并证明该算法可以加速对基准任务的探索。

第4部分。最后,我转向状态动作抽象的联合过程。在第9章中,我介绍了一个将状态和动作抽象结合在一起的简单机制。使用这个方案,然后我证明了哪些状态和动作抽象的组合可以在任何有限的MDP中保持良好的行为策略的表示,定理9.1总结了这一点。接下来,我将研究这些联合抽象的反复应用,作为构建分层抽象的机制。在对层次结构和底层状态动作抽象的温和假设下,我证明了这些层次结构也可以保持全局近最优行为策略的表示,如定理9.3所述。然后,我将在第十章中总结我的思考和今后的方向。

总的来说,这些结果阐明了强化学习的抽象理论。图1.4展示了本文的可视化概述。

成为VIP会员查看完整内容
0
48

大型对抗性不完全信息博弈的均衡发现

不完全信息博弈模型是指具有私有信息的多个主体之间的交互作用。在这种情况下,一个典型的目标是接近一个均衡,在这个均衡中,所有主体的策略都是最优的。本文描述了大型对抗不完全信息博弈均衡计算方面的若干进展。这些新技术使人工智能智能体首次有可能在全规模扑克游戏中击败顶级人类专业人员。几十年来,扑克一直是人工智能和博弈论领域的一大挑战。

我们首先介绍了反事实后悔最小化(CFR)的改进,这是一种收敛于双方零和博弈纳什均衡的迭代算法。我们描述了CFR的新变种,使用折现来显著加快收敛速度。这些新的CFR变体现在是大型对抗非完全信息博弈的最先进的均衡发现算法。我们还介绍了第一种热启动CFR的通用技术。最后,我们介绍理论健全的剪枝技术,可以在大型博弈中数量级地加速收敛。

接下来,我们将描述通过自动抽象和函数近似将CFR扩展到大型游戏的新方法。特别地,我们介绍了第一个在不完全信息博弈中离散连续动作空间的算法。我们将其扩展到求解具有连续动作空间博弈的算法中。

之后,我们介绍了Deep CFR,一种使用神经网络函数近似而不是基于bucketing的抽象形式。Deep CFR是第一个可扩展到大型游戏的non-tabular形式的CFR,它使CFR能够在几乎没有领域知识的情况下成功部署。最后,我们提出了一种新的不完全信息博弈搜索技术,以确保智能体的搜索策略不会被对手利用。方法,它在计算上比以前的方法要代价要少得多。最最后,我们提出了一种在训练和测试时结合强化学习和搜索的算法ReBeL。它朝着弥合完全信息游戏和不完全信息游戏研究之间的差距迈出了重要的一步。

成为VIP会员查看完整内容
0
46

机器人研究的一个长期目标是创建能够从零开始自动学习复杂控制策略的算法。将这种算法应用到机器人上的挑战之一是表示的选择。强化学习(RL)算法已经成功地应用于许多不同的机器人任务中,如带有机器人手臂的cup中的Ball-in-a-Cup任务和各种机器人世界杯机器人足球启发的领域。然而,RL算法仍然存在训练时间长、所需训练数据量大的问题。为状态空间、行动空间和策略选择合适的表示可以大大减少所需的训练时间和所需的训练数据。

本文主要研究机器人的深度强化学习。具体来说,状态空间、动作空间和策略表示的选择如何减少机器人学习任务的训练时间和样本复杂度。特别集中注意两个主要领域: 1)通过张量状态-动作空间表示 2)多状态表示的辅助任务学习

第一个领域探索了在环境变化中改进机器人策略迁移的方法。学习策略的成本可能很高,但是如果策略可以在类似的环境中传输和重用,那么训练成本可以平摊。迁移学习是一个被广泛研究的领域,涉及多种技术。在这篇论文中,我们着重设计一个易于传输的表示。我们的方法将状态空间和动作空间映射为多维张量,设计成当环境中机器人和其他对象的数量变化时保持固定维数。我们还提出了全卷积Q-Network (FCQN)策略表示,这是一种特殊的网络架构,与张量表示相结合,允许跨环境大小进行零距离传输。我们在模拟的单代理和多代理任务上演示了这种方法,灵感来自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我们还表明,在真实世界的传感器数据和机器人中使用这样的表示和模拟训练策略是可能的。

第二个领域考察了一个机器人深度RL状态表示的优势如何弥补另一个机器人深度RL状态表示的劣势。例如,我们经常想要利用机器人可用的传感器来学习任务,其中包括像摄像机这样的高维传感器。最近的Deep RL算法可以通过图像进行学习,但是数据的数量对于真实的机器人来说是难以接受的。或者,可以使用任务完成所需的最小集创建状态。这样做的好处是:1)减少策略参数的数量,2)删除不相关的信息。然而,提取这些特征通常会在工程、额外硬件、校准和实验室之外的脆弱性方面有很大的成本。我们在仿真和现实世界的多个机器人平台和任务上演示了这一点。我们证明它在模拟的RoboCup小型联赛(SSL)机器人上工作。我们还演示了这样的技术允许在真实的硬件上从零开始学习,通过机器人手臂执行一个球在一个杯子的任务。

https://www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

成为VIP会员查看完整内容
0
51

最新的技术进步提高了交通运输的质量。新的数据驱动方法为所有基于控制的系统(如交通、机器人、物联网和电力系统)带来了新的研究方向。将数据驱动的应用与运输系统相结合在最近的运输应用程序中起着关键的作用。本文综述了基于深度强化学习(RL)的交通控制的最新应用。其中,详细讨论了基于深度RL的交通信号控制(TSC)的应用,这在文献中已经得到了广泛的研究。综合讨论了TSC的不同问题求解方法、RL参数和仿真环境。在文献中,也有一些基于深度RL模型的自主驾驶应用研究。我们的调查广泛地总结了这一领域的现有工作,并根据应用程序类型、控制模型和研究的算法对它们进行了分类。最后,我们讨论了基于深度可编程逻辑语言的交通应用所面临的挑战和有待解决的问题。

成为VIP会员查看完整内容
0
95

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
116

摘要:

本文将优化描述为一个过程。在许多实际应用中,环境是如此复杂,以致于无法制定一个全面的理论模型,并使用经典算法理论和数学优化。采取一种稳健的方法是必要的,也是有益的,方法是应用一种不断学习的优化方法,在观察到问题的更多方面时从经验中学习。这种将优化视为一个过程的观点在各个领域都很突出,并在建模和系统方面取得了一些惊人的成功,现在它们已经成为我们日常生活的一部分。

作者介绍:

Elad Hazan是普林斯顿大学计算机科学教授。他于2015年从Technion毕业,当时他是该校运筹学副教授。他的研究重点是机器学习和优化的基本问题的算法设计和分析。他的贡献包括合作开发用于训练学习机器的AdaGrad算法,以及第一个用于凸优化的次线性时间算法。他曾(两次)获得2012年IBM Goldberg最佳论文奖,以表彰他对机器学习的次线性时间算法的贡献。2008年,他还获得了欧洲研究理事会(European Research Council)的一笔拨款、玛丽•居里(Marie Curie)奖学金和谷歌研究奖(两次)。他是计算学习协会的指导委员会成员,并担任COLT 2015的项目主席。

https://www.cs.princeton.edu/~ehazan/

成为VIP会员查看完整内容
0
134

论文题目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

导师:Pieter Abbeel and Sergey Levine

网址:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要:

在本文中,我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法,以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先,最优策略是随机的,改进了搜索,防止了收敛到局部最优,特别是当目标是多模态的时候。其次,熵项提供了正则化,与确定性方法相比,具有更强的一致性和鲁棒性。第三,最大熵策略是可组合的,即可以组合两个或两个以上的策略,并且所得到的策略对于组成任务奖励的总和是近似最优的。第四,最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中,我们将讨论由最大熵策略固有的随机特性所支持的扩展,包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。

成为VIP会员查看完整内容
0
32

题目: A Survey and Critique of Multiagent Deep Reinforcement Learning

简介: 近年来,深度强化学习(RL)取得了出色的成绩。这使得应用程序和方法的数量急剧增加。最近的工作探索了单智能体深度强化之外的学习,并考虑了多智能体深度强化学习的场景。初步结果显示在复杂的多智能体领域中的成功,尽管有许多挑战需要解决。本文的主要目的是提供有关当前多智能体深度强化学习(MDRL)文献的概述。此外,我们通过更广泛的分析对概述进行补充:(i)我们回顾了以前RL中介绍的基础内容,并强调了它们如何适应多智能深度强化学习设置。 (ii)我们为该领域的新开业者提供一般指导:描述从MDRL工作中汲取的经验教训,指出最新的基准并概述研究途径。 (iii)我们提出了MDRL的实际挑战(例如,实施和计算需求)。

作者介绍: Pablo Hernandez-Leal,Borealis AI的研究员,在此之前,曾与Michael Kaisers一起参与过阿姆斯特丹CWI的智能和自治系统。研究方向:单智能体环境开发的算法以及多智能体。计划开发一种算法,该算法使用博弈论,贝叶斯推理和强化学习中的模型和概念在战略交互中得到使用。

成为VIP会员查看完整内容
0
81
小贴士
相关论文
Yu Jin,Bosheng Song,Yanyan Li,Ying Zhu
0+阅读 · 7月12日
Moritz Knolle,Alexander Ziller,Dmitrii Usynin,Rickmer Braren,Marcus R. Makowski,Daniel Rueckert,Georgios Kaissis
0+阅读 · 7月9日
Barbara Kaltenbacher,William Rundell
0+阅读 · 7月8日
DTGAN: Differential Private Training for Tabular GANs
Aditya Kunar,Robert Birke,Zilong Zhao,Lydia Chen
0+阅读 · 7月8日
Thomas Nagler,Daniel Krüger,Aleksey Min
0+阅读 · 7月8日
Validation and Inference of Agent Based Models
D. Townsend
0+阅读 · 7月8日
Jiahui Li,Kun Kuang,Baoxiang Wang,Furui Liu,Long Chen,Fei Wu,Jun Xiao
6+阅读 · 6月22日
Drew A. Hudson,Christopher D. Manning
3+阅读 · 2019年5月10日
Ke Li,Jitendra Malik
5+阅读 · 2018年11月29日
Mohammadhosein Hasanbeig,Alessandro Abate,Daniel Kroening
5+阅读 · 2018年4月22日
Top