Return-Based Contrastive Representation Learning for Reinforcement Learning Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu

近年来,在深度强化学习(deep reinforcement learning, RL)中,各种辅助任务被提出来加速表示学习和提高样本效率。然而,现有的辅助任务没有考虑到RL问题的特点,是无监督的。通过利用回报这一RL中最重要的反馈信号,我们提出了一种新的辅助任务,迫使学习到的表示区分具有不同回报的状态-行为对。我们的辅助损失在理论上是合理的,以学习捕获一种新的形式的状态-行为抽象的结构的表征,在这种结构下,具有相似回报分布的状态-行为对被聚集在一起。在低数据的情况下,我们的算法在Atari游戏和DeepMind控制套件的复杂任务上优于强大的基线,在与现有的辅助任务相结合的情况下获得了更好的性能。

https://www.zhuanzhi.ai/paper/7c66011b0d7a2fa1fc3825853caf383e

成为VIP会员查看完整内容
16

相关内容

【ICLR2021】自监督蒸馏学习视觉表示
专知会员服务
33+阅读 · 2021年4月14日
专知会员服务
18+阅读 · 2021年2月8日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【ICML2020】对比多视角表示学习
专知会员服务
52+阅读 · 2020年6月28日
【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
43+阅读 · 2020年6月18日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
解耦强化学习的值函数学习
CreateAMind
6+阅读 · 2019年9月5日
基于逆强化学习的示教学习方法综述
计算机研究与发展
14+阅读 · 2019年2月25日
DeepMind:用PopArt进行多任务深度强化学习
论智
28+阅读 · 2018年9月14日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年4月14日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
3+阅读 · 2017年7月6日
VIP会员
相关VIP内容
【ICLR2021】自监督蒸馏学习视觉表示
专知会员服务
33+阅读 · 2021年4月14日
专知会员服务
18+阅读 · 2021年2月8日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【ICML2020】对比多视角表示学习
专知会员服务
52+阅读 · 2020年6月28日
【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
43+阅读 · 2020年6月18日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
相关资讯
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
解耦强化学习的值函数学习
CreateAMind
6+阅读 · 2019年9月5日
基于逆强化学习的示教学习方法综述
计算机研究与发展
14+阅读 · 2019年2月25日
DeepMind:用PopArt进行多任务深度强化学习
论智
28+阅读 · 2018年9月14日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
微信扫码咨询专知VIP会员