请问:强化学习中对于reward奖励值设定,对算法有什么影响,有没有相关的论文或者资料?

针对莫烦老师强化学习系列课程 openaigym那集 OpenAI gym 环境库 - 强化学习 Reinforcement Learning | 莫…
关注者
217
被浏览
260,316
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

reward设定的问题存在两个层级

假设我们定义一个Trajectory为state和action的序列

对于一个完整的Trajectory, 如果我们有比较明确地评价这个Trajectory的好坏的方法,可以认为是第一个层级。 在第一个层级问题下,我们也有1w种设定reward的方法。举例来说,我们想要一个agent到达一个目标位置,可以设定每走一步reward = -1, 到达目标reward = 100,也可以设定每走一步reward = -1 + 接近目标的变化程度。 这两种设定,可能对于每个Trajectory的总体评价是一致的,但是学习难度却不同,这个叫reward shaping

如果对于一个明确的Trajectory也没有明确评价的方法,这种属于目标也不明确,这属于第二个层级。这样的情况非常多,举例来说,自然语言处理里的对话系统,自然界很多东西,比如人本身。 人是受什么样的reward驱动的呢?这个问题恐怕基本无法回答。这也就是在RL之前,我们需要先学习一个reward。 Inverse RL是这个方向的经典方法之一,但Inverse RL需要有大量“理想”监督信号。好比你定义一堆人作为“成功”的典范,然后利用这些人成就了什么来学习哪些是判断一个人成功的特征,然后以此作为reward再学习。而近些年的GAN和这个也非常类似: 我们需要学习一个Discriminator来判断真假或者好坏。然而,Discriminator本身容易被“攻击”,也就是,如果你有一个有缺陷的reward-model, RL通常可以攻击到这些缺陷,得到很多你其实不想要的东西。GAN的Discriminator和Generator同时学习针对就是这一点。Discriminator利用攻击他的那些样本重新来填补漏洞。这个过程持续到找不出漏洞为止。 近年来Adversarial Safety的研究也在吸引关注。总之对于这类问题,如何学习一个很好的reward model是非常关键和困难的。