【ICLR2021】基于返回的对比表示征学习在强化学习中的应用 - 专知VIP

会员服务 ·

0

对比表示学习 · 强化学习 ·

2021 年 2 月 24 日

【ICLR2021】基于返回的对比表示征学习在强化学习中的应用

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Return-Based Contrastive Representation Learning for Reinforcement Learning Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu

近年来，在深度强化学习(deep reinforcement learning, RL)中，各种辅助任务被提出来加速表示学习和提高样本效率。然而，现有的辅助任务没有考虑到RL问题的特点，是无监督的。通过利用回报这一RL中最重要的反馈信号，我们提出了一种新的辅助任务，迫使学习到的表示区分具有不同回报的状态-行为对。我们的辅助损失在理论上是合理的，以学习捕获一种新的形式的状态-行为抽象的结构的表征，在这种结构下，具有相似回报分布的状态-行为对被聚集在一起。在低数据的情况下，我们的算法在Atari游戏和DeepMind控制套件的复杂任务上优于强大的基线，在与现有的辅助任务相结合的情况下获得了更好的性能。

https://www.zhuanzhi.ai/paper/7c66011b0d7a2fa1fc3825853caf383e

成为VIP会员查看完整内容

17

相关内容

对比表示学习

对比表示学习

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知会员服务

34+阅读 · 2021年4月14日

【ICLR2021】基于图信息瓶颈的子图识别

专知会员服务

19+阅读 · 2021年2月8日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

93+阅读 · 2020年9月28日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知会员服务

53+阅读 · 2020年6月28日

【KDD2020-清华大学】图对比编码的图神经网络预训练

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

解耦强化学习的值函数学习

解耦强化学习的值函数学习

CreateAMind

6+阅读 · 2019年9月5日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

Learning-Based UAV Trajectory Optimization with Collision Avoidance and Connectivity Constraints

Arxiv

0+阅读 · 2021年4月15日

A Self-Tuning Actor-Critic Algorithm

Arxiv

0+阅读 · 2021年4月14日

Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年4月14日

Return-Based Contrastive Representation Learning for Reinforcement Learning

Arxiv

10+阅读 · 2021年2月22日

Model-based Adversarial Meta-Reinforcement Learning

Arxiv

5+阅读 · 2020年6月16日

FuzzerGym: A Competitive Framework for Fuzzing and Learning

FuzzerGym: A Competitive Framework for Fuzzing and Learning

Arxiv

4+阅读 · 2018年7月19日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

EventKG: A Multilingual Event-Centric Temporal Knowledge Graph

Arxiv

11+阅读 · 2018年4月12日

Adversarial Binary Coding for Efficient Person Re-identification

Arxiv

4+阅读 · 2018年4月6日

Dr.VAE: Drug Response Variational Autoencoder

Arxiv

3+阅读 · 2017年7月6日

VIP会员

相关主题

对比表示学习

相关VIP内容

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知会员服务

34+阅读 · 2021年4月14日

【ICLR2021】基于图信息瓶颈的子图识别

专知会员服务

19+阅读 · 2021年2月8日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

93+阅读 · 2020年9月28日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知会员服务

53+阅读 · 2020年6月28日

【KDD2020-清华大学】图对比编码的图神经网络预训练

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

热门VIP内容

开通专知VIP会员享更多权益服务

虚假信息检测综述

【CMU博士论文】构建具身智能体

【ACMMM2025】通过因果推理提升时间句子定位性能

178页新书《图学习》

相关资讯

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

解耦强化学习的值函数学习

解耦强化学习的值函数学习

CreateAMind

6+阅读 · 2019年9月5日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Learning-Based UAV Trajectory Optimization with Collision Avoidance and Connectivity Constraints

Arxiv

0+阅读 · 2021年4月15日

A Self-Tuning Actor-Critic Algorithm

Arxiv

0+阅读 · 2021年4月14日

Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年4月14日

Return-Based Contrastive Representation Learning for Reinforcement Learning

Arxiv

10+阅读 · 2021年2月22日

Model-based Adversarial Meta-Reinforcement Learning

Arxiv

5+阅读 · 2020年6月16日

FuzzerGym: A Competitive Framework for Fuzzing and Learning

FuzzerGym: A Competitive Framework for Fuzzing and Learning

Arxiv

4+阅读 · 2018年7月19日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

EventKG: A Multilingual Event-Centric Temporal Knowledge Graph

Arxiv

11+阅读 · 2018年4月12日

Adversarial Binary Coding for Efficient Person Re-identification

Arxiv

4+阅读 · 2018年4月6日

Dr.VAE: Drug Response Variational Autoencoder

Arxiv

3+阅读 · 2017年7月6日

微信扫码咨询专知VIP会员