【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

论文题目：Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者：Tuomas Haarnoja

导师：Pieter Abbeel and Sergey Levine

网址：
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要：

在本文中，我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法，以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先，最优策略是随机的，改进了搜索，防止了收敛到局部最优，特别是当目标是多模态的时候。其次，熵项提供了正则化，与确定性方法相比，具有更强的一致性和鲁棒性。第三，最大熵策略是可组合的，即可以组合两个或两个以上的策略，并且所得到的策略对于组成任务奖励的总和是近似最优的。第四，最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中，我们将讨论由最大熵策略固有的随机特性所支持的扩展，包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。

成为VIP会员查看完整内容

EECS-2018-176.pdf

相关内容

深度强化学习

关注 0

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

96+阅读 · 2020年6月19日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日