【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)

2018 年 12 月 22 日 专知
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)

【导读】作者Tuomas Haarnoja是伯克利人工智能研究实验室(BAIR)的博士生,由Pieter Abbeel和Sergey Levine指导,他研究兴趣是建立对深度强化学习算法更好的理解,并开发新的解决方案,以启发现实机器人应用,需要良好的样本复杂性和安全的探索。他最出名的工作是最大熵强化学习,它为学习样本高效可靠的随机策略提供了一个理论基础框架,并将其应用于机器人操纵和运动。

作者主页:

https://people.eecs.berkeley.edu/~haarnoja/


他的毕业博士论文使用最大熵强化学习使机器人具备多样技能《Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning》,是最大熵强化学习在机器人应用方面的综述性文章,非常值得参阅。




Pieter Abbeel也做了重点推荐和祝贺!

博士论文下载:

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“MEDRL” 就可以获取笔记博士论文下载链接~



博士论文《Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning》

论文题目:

Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:

Tuomas Haarnoja

导师Pieter Abbeel and Sergey Levine

网址:

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要:

在本文中,我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法,以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先,最优策略是随机的,改进了搜索,防止了收敛到局部最优,特别是当目标是多模态的时候。其次,熵项提供了正则化,与确定性方法相比,具有更强的一致性和鲁棒性。第三,最大熵策略是可组合的,即可以组合两个或两个以上的策略,并且所得到的策略对于组成任务奖励的总和是近似最优的。第四,最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中,我们将讨论由最大熵策略固有的随机特性所支持的扩展,包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。


论文结构:

模拟四足机器人在多种环境中行走:

机械臂拼乐高

层次最大熵强化学习模型




-END-

专 · 知

   专知开课啦!《深度学习: 算法到实战》, 中科院博士为你讲授!


请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群, 咨询《深度学习:算法到实战》等~

欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
9

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

使用生成模型的无监督学习具有发现3D场景丰富表示的潜力。这种神经场景表示可能随后支持各种下游任务,从机器人技术到计算机图形再到医学成像。然而,现有的方法忽略了场景最基本的属性之一:三维结构。在这项工作中,我们使神经场景表征与一个感应偏差的三维结构的情况。我们证明了这种归纳偏差如何使无监督的发现几何和外观,只给定的二维图像。通过学习一组这样的三维结构感知神经表征的分布,我们可以执行联合重建的三维形状和外观只给出一个单一的二维观察。我们表明,在这个过程中学习到的特征使整个类对象的三维语义分割成为可能,只训练了30个带标记的例子,证明了三维形状、外观和语义分割之间的紧密联系。最后,我们讨论了场景表示学习在计算机视觉本身中的本质和潜在作用,并讨论了未来工作的前景。

成为VIP会员查看完整内容
0
61

导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。

DRL的主要问题之一是需要具有数百万次重复试验的不同实验设置。这显然是不可行的,从一个真实的机器人通过试验和错误,所以我们反而从一个模拟的环境学习。这就引出了第一个基本问题,即弥合从模拟环境到真实环境的现实差距,该问题将在第3章讨论。我们把重点放在单眼视觉避障的特殊挑战上,把它作为一个低级的导航原语。我们开发了一种DRL方法,它在模拟世界中训练,但可以很好地推广到现实世界。

在现实世界中限制移动机器人采用DRL技术的另一个问题是训练策略的高度差异。这导致了较差的收敛性和较低的整体回报,由于复杂和高维搜索空间。在第4章中,我们利用简单的经典控制器为DRL的局部导航任务提供指导,避免了纯随机的初始探索。我们证明,这种新的加速方法大大减少了样本方差,并显著增加了可实现的平均回报。

我们考虑的最后一个挑战是无上限导航的稀疏视觉制导。在第五章,我们提出了一种创新的方法来导航基于几个路点图像,而不是传统的基于视频的教学和重复。我们证明,在模拟中学习的策略可以直接转移到现实世界,并有能力很好地概括到不可见的场景与环境的最小描述。

我们开发和测试新的方法,以解决障碍规避、局部引导和全球导航等关键问题,实现我们的愿景,实现实际的机器人导航。我们将展示如何将DRL作为一种强大的无模型方法来处理这些问题

成为VIP会员查看完整内容
0
57

主题: Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning

摘要: 近年来,在数据丰富的领域,诸如深度神经网络等高容量模型已经使机器学习技术变得非常强大。然而,数据稀缺的领域已被证明具有挑战性的这种方法,因为高容量函数逼近严重依赖于大数据集的泛化。这可能对从有监督的医学图像处理到强化学习等领域构成重大挑战,在这些领域,真实世界的数据收集(如机器人)构成重大的后勤挑战。元学习或少镜头学习为这个问题提供了一个潜在的解决方案:通过学习从许多以前的任务中跨数据学习,很少镜头元学习算法能够发现任务之间的结构,从而实现新任务的快速学习。本教程的目的是为元学习提供一个统一的视角:向观众讲授现代方法,描述围绕这些技术的概念和理论原则,介绍这些方法以前的应用领域,并讨论了该地区存在的基本问题和挑战。我们希望本教程对那些在其他领域有专长的机器学习研究人员都有用,同时也为元学习研究人员提供了一个新的视角。总而言之,我们的目标是为受众成员提供将元学习应用到他们自己的应用中的能力,并开发新的元学习算法和理论分析,这些驱动是由现有工作的挑战和局限所驱动的。我们将提供一个统一的视角,说明各种元学习算法如何能够从小数据集中学习,概述元学习能够而且不容易应用的应用,并讨论这一子领域的突出挑战和前沿。

邀请嘉宾: Chelsea Finn是Google Brain的研究科学家,也是加州大学伯克利分校的博士后学者。2019年9月,她将以助理教授的身份加入斯坦福大学计算机科学系。芬恩的研究兴趣在于通过学习和互动,使机器人和其他智能体发展出广泛的智能行为。为此,芬恩开发了深度学习算法,用于同时学习机器人操作技能中的视觉感知和控制,用于可伸缩获取非线性回报函数的逆强化方法,以及能够快速实现的元学习算法,在视觉感知和深度强化学习中,很少有镜头适应。芬恩在麻省理工学院获得了EECS学士学位,在加州大学伯克利分校获得了CS博士学位。她的研究成果已通过NSF研究生奖学金、Facebook奖学金、C.V.Ramamoorthy杰出研究奖和麻省理工35岁以下技术评论奖获得认可,她的研究成果已被包括《纽约时报》、《连线》和彭博社在内的多家媒体报道。

Sergey Levine 2009年获得斯坦福大学计算机科学学士和硕士学位,2014年获得斯坦福大学计算机科学博士学位。他于2016年秋季加入加州大学伯克利分校电气工程与计算机科学系。他的工作重点是决策和控制的机器学习,重点是深度学习和强化学习算法。他的工作包括自主机器人和车辆,以及计算机视觉和图形。他的研究工作包括开发将感知和控制相结合的深度神经网络策略的端到端训练算法、反向强化学习的可扩展算法、深度强化学习算法等。

成为VIP会员查看完整内容
0
34
小贴士
相关论文
Aravind Srinivas,Michael Laskin,Pieter Abbeel
13+阅读 · 2020年4月28日
A Survey on Trajectory Data Management, Analytics, and Learning
Sheng Wang,Zhifeng Bao,J. Shane Culpepper,Gao Cong
12+阅读 · 2020年3月25日
Deep learning for cardiac image segmentation: A review
Chen Chen,Chen Qin,Huaqi Qiu,Giacomo Tarroni,Jinming Duan,Wenjia Bai,Daniel Rueckert
15+阅读 · 2019年11月9日
Risk-Aware Active Inverse Reinforcement Learning
Daniel S. Brown,Yuchen Cui,Scott Niekum
4+阅读 · 2019年1月8日
HAQ: Hardware-Aware Automated Quantization
Kuan Wang,Zhijian Liu,Yujun Lin,Ji Lin,Song Han
6+阅读 · 2018年11月21日
Joaquin Vanschoren
117+阅读 · 2018年10月8日
Jingkang Wang,Yang Liu,Bo Li
3+阅读 · 2018年10月5日
Physical Primitive Decomposition
Zhijian Liu,William T. Freeman,Joshua B. Tenenbaum,Jiajun Wu
3+阅读 · 2018年9月13日
CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving
Xiaodan Liang,Tairui Wang,Luona Yang,Eric Xing
5+阅读 · 2018年7月10日
Ignasi Clavera,Anusha Nagabandi,Ronald S. Fearing,Pieter Abbeel,Sergey Levine,Chelsea Finn
7+阅读 · 2018年3月30日
Top
微信扫码咨询专知VIP会员