奖励塑形(Reward Shaping)
被证明是一种能够加速强化学习(RL)智能体学习过程的有效技术。尽管在实际应用中取得了成功,但优秀塑形函数的设计在原理上仍缺乏系统理解,因此通常依赖于领域专家经验与人工设计。
为克服这一限制,本文提出了一种新颖的
自动化方法
,用于在存在
未观测混淆偏差(unobserved confounding bias)
的
离线数据
上构造奖励函数。我们提出使用从离线数据中估计的
因果状态价值上界(causal state value upper bounds)
,作为对最优状态价值的一种保守乐观估计,并将其作为**潜在函数(state potentials)
应用于
基于潜势的奖励塑形(Potential-Based Reward Shaping, PBRS)**框架中。
当将该塑形函数应用于一个基于
上置信界(UCB)原则
的无模型学习算法时,我们理论上证明:与未使用塑形的学习算法相比,使用该方法的智能体具有更优的
基于间隔的懊悔上界(gap-dependent regret bound)
。据我们所知,这是首次在具有在线探索的无模型学习中,为PBRS提供
基于间隔的懊悔界限分析
。
仿真实验结果也支持上述 理论发现。