【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

强化学习(RL)智能体需要探索他们的环境，以便通过试错学习最优策略。然而，当奖励信号稀疏，或当安全是一个关键问题和某些错误是不可接受的时候，探索是具有挑战性的。在本论文中，我们通过修改智能体解决的潜在优化问题，激励它们以更安全或更有效的方式探索，来解决深度强化学习设置中的这些挑战。

在这篇论文的第一部分，我们提出了内在动机的方法，在奖励稀少或缺乏的问题上取得进展。我们的第一种方法使用内在奖励来激励智能体访问在学习动力学模型下被认为是令人惊讶的状态，并且我们证明了这种技术比单纯探索更好。我们的第二种方法使用基于变分推理的目标，赋予个体不同的多种技能，而不使用特定任务的奖励。我们证明了这种方法，我们称为变分选择发现，可以用来学习运动行为的模拟机器人环境。

在论文的第二部分，我们重点研究了安全勘探中存在的问题。在广泛的安全强化学习研究的基础上，我们提出将约束的RL标准化为安全探索的主要形式; 然后，我们继续开发约束RL的算法和基准。我们的材料展示按时间顺序讲述了一个故事:我们首先介绍约束策略优化(Constrained Policy Optimization, CPO)，这是约束深度RL的第一个算法，在每次迭代时都保证接近约束的满足。接下来，我们开发了安全健身基准，它让我们找到CPO的极限，并激励我们向不同的方向前进。最后，我们发展了PID拉格朗日方法，其中我们发现对拉格朗日原-对偶梯度基线方法进行小的修改，可以显著改善求解Safety Gym中约束RL任务的稳定性和鲁棒性。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

成为VIP会员查看完整内容

相关内容

深度强化学习

关注 154

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【CMU博士论文】可控文本生成，附107页pdf与Slides

专知会员服务

57+阅读 · 2021年4月21日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

133+阅读 · 2020年12月22日

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

专知会员服务

88+阅读 · 2020年12月17日

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

专知会员服务

96+阅读 · 2020年9月23日