奖励塑形(Reward Shaping)

 被证明是一种能够加速强化学习(RL)智能体学习过程的有效技术。尽管在实际应用中取得了成功,但优秀塑形函数的设计在原理上仍缺乏系统理解,因此通常依赖于领域专家经验与人工设计。

为克服这一限制,本文提出了一种新颖的

自动化方法

,用于在存在

未观测混淆偏差(unobserved confounding bias)

离线数据

上构造奖励函数。我们提出使用从离线数据中估计的

因果状态价值上界(causal state value upper bounds)

,作为对最优状态价值的一种保守乐观估计,并将其作为**潜在函数(state potentials)

应用于

基于潜势的奖励塑形(Potential-Based Reward Shaping, PBRS)**框架中。

当将该塑形函数应用于一个基于

上置信界(UCB)原则

的无模型学习算法时,我们理论上证明:与未使用塑形的学习算法相比,使用该方法的智能体具有更优的

基于间隔的懊悔上界(gap-dependent regret bound)

。据我们所知,这是首次在具有在线探索的无模型学习中,为PBRS提供

基于间隔的懊悔界限分析

仿真实验结果也支持上述 理论发现。

成为VIP会员查看完整内容
0

相关内容

【ICML2023】基于最优多任务插值的多模态基础模型迁移
专知会员服务
31+阅读 · 2023年4月29日
【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
专知会员服务
27+阅读 · 2021年9月10日
专知会员服务
12+阅读 · 2021年7月16日
专知会员服务
15+阅读 · 2021年6月26日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
461+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ICML2023】基于最优多任务插值的多模态基础模型迁移
专知会员服务
31+阅读 · 2023年4月29日
【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
专知会员服务
27+阅读 · 2021年9月10日
专知会员服务
12+阅读 · 2021年7月16日
专知会员服务
15+阅读 · 2021年6月26日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
相关论文
微信扫码咨询专知VIP会员