题目: A Game Theoretic Framework for Model Based Reinforcement Learning

摘要: 基于模型的强化学习(MBRL)最近获得了极大的兴趣,因为它具有潜在的样本效率和合并非策略数据的能力。然而,使用富函数逼近器设计稳定、高效的MBRL算法仍然具有挑战性。为了从抽象的角度揭示MBRL的实际挑战并简化算法设计,我们开发了一个新的框架,将MBRL描述为:(1)一个策略参与者,它试图在学习模型下最大化回报;(2)一个模型player,它试图与策略player收集的真实数据相匹配。在算法开发方面,我们构造了一个双方参与的Stackelberg博弈,并证明了它可以用近似的双层优化来解决。这就产生了两种自然的MBRL算法,基于这两种算法,玩家被选择为Stackelberg游戏的领导者。它们一起封装、统一和泛化了许多以前的MBRL算法。此外,我们的框架是一致的,并提供了一个明确的基础启发式已知是重要的实践,从以往的工作。最后,通过实验验证了所提出的算法具有较高的样本效率,匹配无模型策略梯度的渐近性能,并能扩展到灵巧手操作等高维任务。

成为VIP会员查看完整内容
0
54

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。

DRL的主要问题之一是需要具有数百万次重复试验的不同实验设置。这显然是不可行的,从一个真实的机器人通过试验和错误,所以我们反而从一个模拟的环境学习。这就引出了第一个基本问题,即弥合从模拟环境到真实环境的现实差距,该问题将在第3章讨论。我们把重点放在单眼视觉避障的特殊挑战上,把它作为一个低级的导航原语。我们开发了一种DRL方法,它在模拟世界中训练,但可以很好地推广到现实世界。

在现实世界中限制移动机器人采用DRL技术的另一个问题是训练策略的高度差异。这导致了较差的收敛性和较低的整体回报,由于复杂和高维搜索空间。在第4章中,我们利用简单的经典控制器为DRL的局部导航任务提供指导,避免了纯随机的初始探索。我们证明,这种新的加速方法大大减少了样本方差,并显著增加了可实现的平均回报。

我们考虑的最后一个挑战是无上限导航的稀疏视觉制导。在第五章,我们提出了一种创新的方法来导航基于几个路点图像,而不是传统的基于视频的教学和重复。我们证明,在模拟中学习的策略可以直接转移到现实世界,并有能力很好地概括到不可见的场景与环境的最小描述。

我们开发和测试新的方法,以解决障碍规避、局部引导和全球导航等关键问题,实现我们的愿景,实现实际的机器人导航。我们将展示如何将DRL作为一种强大的无模型方法来处理这些问题

成为VIP会员查看完整内容
0
43

强化学习(RL)研究的是当环境(即动力和回报)最初未知,但可以通过直接交互学习时的顺序决策问题。RL算法最近在许多问题上取得了令人印象深刻的成果,包括游戏和机器人。 然而,大多数最新的RL算法需要大量的数据来学习一个令人满意的策略,并且不能用于样本昂贵和/或无法进行长时间模拟的领域(例如,人机交互)。朝着更具样本效率的算法迈进的一个基本步骤是,设计适当平衡环境探索、收集有用信息的方法,以及利用所学策略收集尽可能多的回报的方法。

本教程的目的是让您认识到探索性开发困境对于提高现代RL算法的样本效率的重要性。本教程将向观众提供主要算法原理(特别是,面对不确定性和后验抽样时的乐观主义)、精确情况下的理论保证(即表格RL)及其在更复杂环境中的应用,包括参数化MDP、线性二次控制,以及它们与深度学习架构的集成。本教程应提供足够的理论和算法背景,以使AI和RL的研究人员在现有的RL算法中集成探索原理,并设计新颖的样本高效的RL方法,能够处理复杂的应用,例如人机交互(例如,会话代理),医学应用(例如,药物优化)和广告(例如,营销中的终身价值优化)。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。

成为VIP会员查看完整内容
0
72

题目: Gradient Surgery for Multi-Task Learning

摘要: 虽然深度学习和深度强化学习(RL)系统在图像分类、游戏和机器人控制等领域取得了令人印象深刻的成果,但数据效率仍然是一个重大挑战。多任务学习是一种很有前途的跨任务共享结构的学习方法。然而,多任务设置带来了许多优化挑战,与独立学习任务相比,很难实现大的效率提升。与单任务学习相比,多任务学习之所以具有如此大的挑战性,其原因还不完全清楚。在这项工作中,我们确定了多任务优化环境中导致有害梯度干扰的三个条件,并开发了一种简单而通用的方法来避免任务梯度之间的这种干扰。我们提出一种梯度手术的形式,将一个任务的梯度投影到任何其他具有冲突梯度的任务的梯度的法平面上。在一系列具有挑战性的多任务监督和多任务RL问题上,该方法在效率和性能上都有显著提高。此外,它与模型无关,可以与先前提出的多任务体系结构相结合以提高性能。

作者简介: Tianhe Yu,加州大学伯克利分校研究助理。官方主页:https://tianheyu927.github.io/

成为VIP会员查看完整内容
0
30

题目: A Deep Reinforcement Learning Framework for theFinancial Portfolio Management Problem

摘要: 金融资产组合管理是一个不断将资金重新分配到不同金融产品中的过程。本文提出了一个无财务模型的强化学习框架,为投资组合管理问题提供了一个深入的机器学习解决方案。该框架由完全相同的独立评估器(EIIE)拓扑、投资组合向量存储器(PVM)、在线随机批学习(OSBL)方案和充分利用和显式报酬函数组成。在这项工作中,利用卷积神经网络(CNN)、基本重电流神经网络(RNN)和长短期记忆(LSTM)在三个瞬间实现了该框架。它们与最近审查或公布的一些投资组合选择策略一起,在三个交易时间为30分钟的acryptocurrency市场进行了背部测试实验。加密货币是政府发行货币的电子和分散的替代品,比特币是加密货币最著名的例子。该框架的三个实例垄断了所有实验中排名前三的位置,超过了其他比较的交易算法。尽管后台测试的佣金率高达0.25%,但该框架能够在50天内实现至少4倍的回报。

作者简介: Dixing Xu,浙江大学客座研究员。他的兴趣包括深度学习、强化学习、安全、隐私和区块链。等

成为VIP会员查看完整内容
0
22

主题: Model-Based Reinforcement Learning:Theory and Practice

摘要: 强化学习系统可以通过两种方式之一做出决策。在基于模型的方法中,系统使用世界的预测模型来提问“如果我做x会发生什么?”?“选择最好的x1。在另一种无模型方法中,建模步骤被完全忽略,有利于直接学习控制策略。尽管在实践中,这两种技术之间的界限可能变得模糊,但作为一种粗略的指导,它对于划分算法可能性的空间是有用的。

嘉宾简介: Michael Janner,伯克利人工智能研究实验室的一名博士生。

成为VIP会员查看完整内容
0
18

主题: Exploration-Exploitation in Reinforcement Learning

摘要: 强化学习(RL)研究的是当环境(即动力和反馈)最初未知,但可以通过直接交互学习时的顺序决策问题。学习问题的一个关键步骤是恰当地平衡对环境的探索,以便收集有用的信息,并利用所学的政策来收集尽可能多的回报。最近的理论结果证明,基于乐观主义或后验抽样的方法(如UCRL、PSRL等)成功地解决了勘探开发难题,并且可能需要比简单(但非常流行)的技术(如epsilon贪心)小指数的样本来收敛到接近最优的策略。乐观主义和后验抽样原则直接受到多臂bandit文献的启发,RL提出了具体的挑战(例如,“局部”不确定性如何通过Markov动力学传播),这需要更复杂的理论分析。本教程的重点是提供勘探开发困境的正式定义,讨论其挑战,并回顾不同优化标准(特别是有限时间和平均回报问题)的主要算法原则及其理论保证。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。

邀请嘉宾: Ronan Fruit,Inria SequeL团队的博士生。他目前是蒙特利尔Facebook人工智能研究(FAIR)的研究实习生。他的研究集中在理论上理解强化学习中的探索性开发困境,以及设计具有可证明的良好后悔保证的算法。

Alessandro Lazaric,自2017年以来一直是Facebook AI Research(FAIR)实验室的研究科学家,他之前是SequeL团队Inria的研究员。他的主要研究主题是强化学习,在RL的理论和算法方面都做出了巨大贡献。在过去的十年中,他研究了多臂土匪和强化学习框架中的勘探与开发困境,特别是在遗憾最小化,最佳武器识别,纯粹探索和分层RL等问题上。

Matteo Pirotta,巴黎Facebook人工智能研究(FAIR)实验室的研究科学家。之前,他是SequeL团队的Inria博士后。2016年,他在米兰理工大学(意大利)获得计算机科学博士学位。他在强化学习方面的博士论文获得了Dimitris N.Chorafas基金会奖和EurAI杰出论文奖。他的主要研究兴趣是强化学习。近几年来,他主要关注的是RL的勘探开发困境。

成为VIP会员查看完整内容
0
16

Deep reinforcement learning has recently shown many impressive successes. However, one major obstacle towards applying such methods to real-world problems is their lack of data-efficiency. To this end, we propose the Bottleneck Simulator: a model-based reinforcement learning method which combines a learned, factorized transition model of the environment with rollout simulations to learn an effective policy from few examples. The learned transition model employs an abstract, discrete (bottleneck) state, which increases sample efficiency by reducing the number of model parameters and by exploiting structural properties of the environment. We provide a mathematical analysis of the Bottleneck Simulator in terms of fixed points of the learned policy, which reveals how performance is affected by four distinct sources of error: an error related to the abstract space structure, an error related to the transition model estimation variance, an error related to the transition model estimation bias, and an error related to the transition model class bias. Finally, we evaluate the Bottleneck Simulator on two natural language processing tasks: a text adventure game and a real-world, complex dialogue response selection task. On both tasks, the Bottleneck Simulator yields excellent performance beating competing approaches.

0
9
下载
预览

This paper presents a new multi-objective deep reinforcement learning (MODRL) framework based on deep Q-networks. We propose the use of linear and non-linear methods to develop the MODRL framework that includes both single-policy and multi-policy strategies. The experimental results on two benchmark problems including the two-objective deep sea treasure environment and the three-objective mountain car problem indicate that the proposed framework is able to converge to the optimal Pareto solutions effectively. The proposed framework is generic, which allows implementation of different deep reinforcement learning algorithms in different complex environments. This therefore overcomes many difficulties involved with standard multi-objective reinforcement learning (MORL) methods existing in the current literature. The framework creates a platform as a testbed environment to develop methods for solving various problems associated with the current MORL. Details of the framework implementation can be referred to http://www.deakin.edu.au/~thanhthi/drl.htm.

0
9
下载
预览
小贴士
相关VIP内容
专知会员服务
30+阅读 · 2020年1月23日
相关资讯
17种深度强化学习算法用Pytorch实现
新智元
21+阅读 · 2019年9月16日
DeepMind:用PopArt进行多任务深度强化学习
论智
15+阅读 · 2018年9月14日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
13+阅读 · 2018年8月17日
【ICML2018】63篇强化学习论文全解读
专知
4+阅读 · 2018年7月24日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
4+阅读 · 2018年3月13日
【深度强化学习】深度强化学习揭秘
产业智能官
13+阅读 · 2017年11月13日
相关论文
Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey
Sanmit Narvekar,Bei Peng,Matteo Leonetti,Jivko Sinapov,Matthew E. Taylor,Peter Stone
11+阅读 · 2020年3月10日
Tuomas Haarnoja,Aurick Zhou,Sehoon Ha,Jie Tan,George Tucker,Sergey Levine
4+阅读 · 2018年12月26日
Hierarchical Deep Multiagent Reinforcement Learning
Hongyao Tang,Jianye Hao,Tangjie Lv,Yingfeng Chen,Zongzhang Zhang,Hangtian Jia,Chunxu Ren,Yan Zheng,Changjie Fan,Li Wang
4+阅读 · 2018年9月25日
Brendan O'Donoghue
3+阅读 · 2018年7月25日
The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach
Iulian Vlad Serban,Chinnadhurai Sankar,Michael Pieper,Joelle Pineau,Yoshua Bengio
9+阅读 · 2018年7月12日
A Multi-Objective Deep Reinforcement Learning Framework
Thanh Thi Nguyen
9+阅读 · 2018年6月27日
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
4+阅读 · 2018年6月5日
Sham Kakade,Mengdi Wang,Lin F. Yang
3+阅读 · 2018年4月25日
Xin Wang,Wenhu Chen,Yuan-Fang Wang,William Yang Wang
7+阅读 · 2018年4月24日
Xin Wang,Wenhu Chen,Jiawei Wu,Yuan-Fang Wang,William Yang Wang
20+阅读 · 2018年3月29日
Top