【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

深度强化学习解决很多复杂问题的能力已经有目共睹，然而，如何提升其学习效率是目前面临的主要问题之一。现有的很多方法已验证迁移学习可利用相关任务中获得的先验知识来加快强化学习任务的学习效率。然而，这些方法需要明确计算任务之间的相似度，或者只能选择一个适合的源策略，并利用它提供针对目标任务的指导性探索。目前仍缺少如何不显式的计算策略间相似性，自适应的利用源策略中的先验知识的方法。本文提出了一种通用的策略迁移框架（PTF），利用上述思想实现高效的强化学习。PTF通过将多策略迁移过程建模为选项（option）学习，option判断何时和哪种源策略最适合重用，何时终止该策略的重用。如图1所示，PTF分为两个子模块，智能体（agent）模块和option模块。Agent模块负责与环境交互，并根据环境的经验和option的指导进行策略更新。

成为VIP会员查看完整内容

相关内容

深度强化学习

关注 0

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日