Approaches for goal-conditioned reinforcement learning (GCRL) often use learned state representations to extract goal-reaching policies. Two frameworks for representation structure have yielded particularly effective GCRL algorithms: (1) *contrastive representations*, in which methods learn "successor features" with a contrastive objective that performs inference over future outcomes, and (2) *temporal distances*, which link the (quasimetric) distance in representation space to the transit time from states to goals. We propose an approach that unifies these two frameworks, using the structure of a quasimetric representation space (triangle inequality) with the right additional constraints to learn successor representations that enable optimal goal-reaching. Unlike past work, our approach is able to exploit a **quasimetric** distance parameterization to learn **optimal** goal-reaching distances, even with **suboptimal** data and in **stochastic** environments. This gives us the best of both worlds: we retain the stability and long-horizon capabilities of Monte Carlo contrastive RL methods, while getting the free stitching capabilities of quasimetric network parameterizations. On existing offline GCRL benchmarks, our representation learning objective improves performance on stitching tasks where methods based on contrastive learning struggle, and on noisy, high-dimensional environments where methods based on quasimetric networks struggle.


翻译:目标条件强化学习(GCRL)方法常利用学习到的状态表示来提取达成目标的策略。在表示结构方面,两种框架已催生出特别有效的GCRL算法:(1)*对比表示*:该方法通过对比目标学习“后继特征”,对未来结果进行推断;(2)*时序距离*:该方法将表示空间中的(拟度量)距离与状态到目标的转移时间相关联。我们提出一种统一这两种框架的方法,利用拟度量表示空间的结构(三角不等式)并施加适当的附加约束,以学习能够实现最优目标达成的后继表示。与以往研究不同,我们的方法能够利用**拟度量**距离参数化来学习**最优**的目标达成距离,即使在**次优**数据和**随机**环境中亦然。这使我们兼收两者优势:既保留了蒙特卡洛对比强化学习方法的稳定性与长时程能力,又获得了拟度量网络参数化固有的自由拼接能力。在现有离线GCRL基准测试中,我们的表示学习目标在对比学习方法难以处理的拼接任务上提升了性能,同时在拟度量网络方法难以应对的噪声高维环境中也表现出色。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
专知会员服务
46+阅读 · 2020年10月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员