【ICML2021】授权驱动探索的元强化学习

元强化学习(Meta - reinforcement learning, Meta - rl)从以前的任务中提取知识，实现对新任务的快速适应。尽管最近取得了一些进展，但对元强化学习的有效探索仍然是稀疏奖励任务中的一个关键挑战，因为它需要在元训练和适应中快速找到与任务相关的信息性经验。针对这一挑战，我们明确建模了一个元强化学习的探索策略学习问题，该问题与开发策略学习分离，并引入了一个新的赋权驱动的探索目标，该目标旨在最大限度地获取信息以进行任务识别。我们得到了相应的内在奖励，并开发了一个新的非策略元强化学习框架，通过共享任务推理知识，有效地学习独立的上下文感知的探索和开发策略。实验结果表明，在不同的稀疏奖励MuJoCo运动任务和更复杂的稀疏奖励元世界任务中，我们的meta-RL方法显著优于最先进的基线。

https://www.zhuanzhi.ai/paper/8972d5b6f921acf471ca8b89afc45759

成为VIP会员查看完整内容

相关内容

元强化学习

关注 33

Meta RL（Meta Reinforcement Learning）是Meta Learning应用到Reinforcement Learning的一个研究方向，核心的想法就是希望AI在学习大量的RL任务中获取足够的先验知识Prior Knowledge然后在面对新的RL任务时能够学的更快，学的更好，能够自适应新环境！

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【ICML2021】多任务学习与元学习的衔接:面向高效训练与有效适应

专知会员服务

33+阅读 · 2021年6月18日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日