利用监督学习(SL)的力量开发更有效的强化学习(RL)方法已经成为最近的一种趋势。为了解决稀疏奖励目标条件问题**,我们提出了一种新的分阶段方法,即在线反馈学习和离线反馈学习交替进行**。在在线阶段,我们执行RL训练并收集上线数据,而在离线阶段,我们对数据集中成功的轨迹执行SL。为了进一步提高样本效率,我们在在线阶段采用了额外的技术,包括减少任务生成更可行的轨迹和基于价值差异的内在奖励来缓解稀疏奖励问题。我们称这种整体算法为PhAsic自拟约简(PAIR)。在稀疏奖励目标条件机器人控制问题(包括具有挑战性的堆叠任务)上,PAIR大大优于非相位RL和相位SL基线。PAIR是第一个RL方法,它学习了从零开始堆叠6个立方体,只有0/1的成功奖励。

https://www.zhuanzhi.ai/paper/007d9cb1ce12650d123764621e0b319d

成为VIP会员查看完整内容
18

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议,也是CCF-A类学术会议。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
基于强化学习的空战动作生成
专知会员服务
126+阅读 · 2022年6月19日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
【ICML2022】可达性约束强化学习
专知会员服务
22+阅读 · 2022年5月18日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
26+阅读 · 2021年5月24日
专知会员服务
22+阅读 · 2021年5月23日
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
SIGIR2022 | 从Prompt的角度考量强化学习推荐系统
机器学习与推荐算法
1+阅读 · 2022年5月24日
SIGIR 2022 | 从Prompt的角度考量强化学习推荐系统
PaperWeekly
2+阅读 · 2022年4月21日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年8月12日
Arxiv
15+阅读 · 2022年6月14日
VIP会员
相关VIP内容
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
基于强化学习的空战动作生成
专知会员服务
126+阅读 · 2022年6月19日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
【ICML2022】可达性约束强化学习
专知会员服务
22+阅读 · 2022年5月18日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
26+阅读 · 2021年5月24日
专知会员服务
22+阅读 · 2021年5月23日
相关资讯
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
SIGIR2022 | 从Prompt的角度考量强化学习推荐系统
机器学习与推荐算法
1+阅读 · 2022年5月24日
SIGIR 2022 | 从Prompt的角度考量强化学习推荐系统
PaperWeekly
2+阅读 · 2022年4月21日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员