【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减 - 专知VIP

会员服务 ·

5

ICML 2022 · 强化学习 · 模仿学习 ·

2022 年 6 月 28 日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

利用监督学习(SL)的力量开发更有效的强化学习(RL)方法已经成为最近的一种趋势。为了解决稀疏奖励目标条件问题**，我们提出了一种新的分阶段方法，即在线反馈学习和离线反馈学习交替进行**。在在线阶段，我们执行RL训练并收集上线数据，而在离线阶段，我们对数据集中成功的轨迹执行SL。为了进一步提高样本效率，我们在在线阶段采用了额外的技术，包括减少任务生成更可行的轨迹和基于价值差异的内在奖励来缓解稀疏奖励问题。我们称这种整体算法为PhAsic自拟约简(PAIR)。在稀疏奖励目标条件机器人控制问题(包括具有挑战性的堆叠任务)上，PAIR大大优于非相位RL和相位SL基线。PAIR是第一个RL方法，它学习了从零开始堆叠6个立方体，只有0/1的成功奖励。

https://www.zhuanzhi.ai/paper/007d9cb1ce12650d123764621e0b319d

成为VIP会员查看完整内容

19

相关内容

ICML 2022

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议，也是CCF-A类学术会议。ICML 2022 共收到5630 投稿，接收1117 篇 short oral，118篇 long oral，录用率为21.94%。

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

基于强化学习的空战动作生成

基于强化学习的空战动作生成

专知会员服务

137+阅读 · 2022年6月19日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【ICML2022】可达性约束强化学习

【ICML2022】可达性约束强化学习

专知会员服务

23+阅读 · 2022年5月18日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

【ICLR2021】基于返回的对比表示征学习在强化学习中的应用

专知会员服务

17+阅读 · 2021年2月24日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

SIGIR2022 | 从Prompt的角度考量强化学习推荐系统

SIGIR2022 | 从Prompt的角度考量强化学习推荐系统

机器学习与推荐算法

1+阅读 · 2022年5月24日

SIGIR 2022 | 从Prompt的角度考量强化学习推荐系统

SIGIR 2022 | 从Prompt的角度考量强化学习推荐系统

PaperWeekly

2+阅读 · 2022年4月21日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

InfoQ

3+阅读 · 2021年12月20日

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

PaperWeekly

2+阅读 · 2021年11月30日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

哈工大SCIR

0+阅读 · 2021年6月22日

【ICML2021】利用最大化证据作为准则的预训练模型选择判据

【ICML2021】利用最大化证据作为准则的预训练模型选择判据

专知

1+阅读 · 2021年5月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于双时间尺度优化的多机器人策略自适应与一致性

国家自然科学基金

2+阅读 · 2014年12月31日

基于阵列全息的车辆振源识别与贡献排序方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于不等式约束的稀疏程度未知条件下自适应滤波算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

标记分布学习

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

以信息为中心的网络（ICN）缓存机制性能评估与算法优化

国家自然科学基金

0+阅读 · 2012年12月31日

稀疏近似逆预条件子的协同并行多级策略

国家自然科学基金

1+阅读 · 2011年12月31日

基于协同学的并行多层次反馈图像理解研究

国家自然科学基金

1+阅读 · 2008年12月31日

Metric Residual Networks for Sample Efficient Goal-conditioned Reinforcement Learning

Arxiv

0+阅读 · 2022年8月17日

NMPC-LBF: Nonlinear MPC with Learned Barrier Function for Decentralized Safe Navigation of Multiple Robots in Unknown Environments

Arxiv

0+阅读 · 2022年8月16日

BERTifying Sinhala -- A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text Classification

Arxiv

0+阅读 · 2022年8月16日

Reinforcement Learning to Rank with Coarse-grained Labels

Arxiv

0+阅读 · 2022年8月16日

Synthetic fibered $(\infty,1)$-category theory

Arxiv

0+阅读 · 2022年8月12日

The Weighting Game: Evaluating Quality of Explainability Methods

Arxiv

0+阅读 · 2022年8月12日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

ContrastMask: Contrastive Learning to Segment Every Thing

Arxiv

15+阅读 · 2022年3月18日

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Arxiv

12+阅读 · 2021年2月7日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

VIP会员

相关主题

相关VIP内容

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

基于强化学习的空战动作生成

基于强化学习的空战动作生成

专知会员服务

137+阅读 · 2022年6月19日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【ICML2022】可达性约束强化学习

【ICML2022】可达性约束强化学习

专知会员服务

23+阅读 · 2022年5月18日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

【ICLR2021】基于返回的对比表示征学习在强化学习中的应用

专知会员服务

17+阅读 · 2021年2月24日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

SIGIR2022 | 从Prompt的角度考量强化学习推荐系统

SIGIR2022 | 从Prompt的角度考量强化学习推荐系统

机器学习与推荐算法

1+阅读 · 2022年5月24日

SIGIR 2022 | 从Prompt的角度考量强化学习推荐系统

SIGIR 2022 | 从Prompt的角度考量强化学习推荐系统

PaperWeekly

2+阅读 · 2022年4月21日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

InfoQ

3+阅读 · 2021年12月20日

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

PaperWeekly

2+阅读 · 2021年11月30日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

哈工大SCIR

0+阅读 · 2021年6月22日

【ICML2021】利用最大化证据作为准则的预训练模型选择判据

【ICML2021】利用最大化证据作为准则的预训练模型选择判据

专知

1+阅读 · 2021年5月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

相关基金

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于双时间尺度优化的多机器人策略自适应与一致性

国家自然科学基金

2+阅读 · 2014年12月31日

基于阵列全息的车辆振源识别与贡献排序方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于不等式约束的稀疏程度未知条件下自适应滤波算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

标记分布学习

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

以信息为中心的网络（ICN）缓存机制性能评估与算法优化

国家自然科学基金

0+阅读 · 2012年12月31日

稀疏近似逆预条件子的协同并行多级策略

国家自然科学基金

1+阅读 · 2011年12月31日

基于协同学的并行多层次反馈图像理解研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Metric Residual Networks for Sample Efficient Goal-conditioned Reinforcement Learning

Arxiv

0+阅读 · 2022年8月17日

NMPC-LBF: Nonlinear MPC with Learned Barrier Function for Decentralized Safe Navigation of Multiple Robots in Unknown Environments

Arxiv

0+阅读 · 2022年8月16日

BERTifying Sinhala -- A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text Classification

Arxiv

0+阅读 · 2022年8月16日

Reinforcement Learning to Rank with Coarse-grained Labels

Arxiv

0+阅读 · 2022年8月16日

Synthetic fibered $(\infty,1)$-category theory

Arxiv

0+阅读 · 2022年8月12日

The Weighting Game: Evaluating Quality of Explainability Methods

Arxiv

0+阅读 · 2022年8月12日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

ContrastMask: Contrastive Learning to Segment Every Thing

Arxiv

15+阅读 · 2022年3月18日

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Arxiv

12+阅读 · 2021年2月7日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

微信扫码咨询专知VIP会员