请问：强化学习中对于reward奖励值设定，对算法有什么影响，有没有相关的论文或者资料？

Question

请问：强化学习中对于reward奖励值设定，对算法有什么影响，有没有相关的论文或者资料？

针对莫烦老师强化学习系列课程 openaigym那集 OpenAI gym 环境库 - 强化学习 Reinforcement Learning | 莫…

关注者

217

被浏览

260,316

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 12 个回答

reward设定的问题存在两个层级

假设我们定义一个Trajectory为state和action的序列

对于一个完整的Trajectory，如果我们有比较明确地评价这个Trajectory的好坏的方法，可以认为是第一个层级。在第一个层级问题下，我们也有1w种设定reward的方法。举例来说，我们想要一个agent到达一个目标位置，可以设定每走一步reward = -1, 到达目标reward = 100，也可以设定每走一步reward = -1 + 接近目标的变化程度。这两种设定，可能对于每个Trajectory的总体评价是一致的，但是学习难度却不同，这个叫reward shaping

如果对于一个明确的Trajectory也没有明确评价的方法，这种属于目标也不明确，这属于第二个层级。这样的情况非常多，举例来说，自然语言处理里的对话系统，自然界很多东西，比如人本身。人是受什么样的reward驱动的呢？这个问题恐怕基本无法回答。这也就是在RL之前，我们需要先学习一个reward。 Inverse RL是这个方向的经典方法之一，但Inverse RL需要有大量“理想”监督信号。好比你定义一堆人作为“成功”的典范，然后利用这些人成就了什么来学习哪些是判断一个人成功的特征，然后以此作为reward再学习。而近些年的GAN和这个也非常类似：我们需要学习一个Discriminator来判断真假或者好坏。然而，Discriminator本身容易被“攻击”，也就是，如果你有一个有缺陷的reward-model, RL通常可以攻击到这些缺陷，得到很多你其实不想要的东西。GAN的Discriminator和Generator同时学习针对就是这一点。Discriminator利用攻击他的那些样本重新来填补漏洞。这个过程持续到找不出漏洞为止。近年来Adversarial Safety的研究也在吸引关注。总之对于这类问题，如何学习一个很好的reward model是非常关键和困难的。

编辑于 2019-07-16 14:41

查看全部 12 个回答