【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)

2018 年 12 月 22 日 专知

【导读】作者Tuomas Haarnoja是伯克利人工智能研究实验室(BAIR)的博士生,由Pieter Abbeel和Sergey Levine指导,他研究兴趣是建立对深度强化学习算法更好的理解,并开发新的解决方案,以启发现实机器人应用,需要良好的样本复杂性和安全的探索。他最出名的工作是最大熵强化学习,它为学习样本高效可靠的随机策略提供了一个理论基础框架,并将其应用于机器人操纵和运动。

作者主页:

https://people.eecs.berkeley.edu/~haarnoja/


他的毕业博士论文使用最大熵强化学习使机器人具备多样技能《Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning》,是最大熵强化学习在机器人应用方面的综述性文章,非常值得参阅。




Pieter Abbeel也做了重点推荐和祝贺!

博士论文下载:

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“MEDRL” 就可以获取笔记博士论文下载链接~



博士论文《Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning》

论文题目:

Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:

Tuomas Haarnoja

导师Pieter Abbeel and Sergey Levine

网址:

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要:

在本文中,我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法,以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先,最优策略是随机的,改进了搜索,防止了收敛到局部最优,特别是当目标是多模态的时候。其次,熵项提供了正则化,与确定性方法相比,具有更强的一致性和鲁棒性。第三,最大熵策略是可组合的,即可以组合两个或两个以上的策略,并且所得到的策略对于组成任务奖励的总和是近似最优的。第四,最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中,我们将讨论由最大熵策略固有的随机特性所支持的扩展,包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。


论文结构:

模拟四足机器人在多种环境中行走:

机械臂拼乐高

层次最大熵强化学习模型




-END-

专 · 知

   专知开课啦!《深度学习: 算法到实战》, 中科院博士为你讲授!


请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群, 咨询《深度学习:算法到实战》等~

欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
10

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
已删除
将门创投
8+阅读 · 2017年7月21日
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
3+阅读 · 2018年10月5日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
VIP会员
相关论文
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
3+阅读 · 2018年10月5日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
Top
微信扫码咨询专知VIP会员