Markov Decision Process 为什么用到discount factor?
关注者
4被浏览
1,082登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
引入折扣因子是为了让价值函数V(s)或者动态价值函数Q(s,a)在Infinite Horizon环境(没有终止状态的环境)下有界。实际上,对于Finite Horizon环境(环境到了指定步长后结束回合),也可以不用折扣因子。
如果没有折扣因子 Return =\sum R_1 + R_2 +R_3+... 很有可能是无穷大的。如果是Return是无穷大的,就难以定量研究价值函数V(s)或者动态价值函数Q(s,a)。
引入折扣因子后, Return =\sum R_1 + \gamma R_2 + \gamma^2 R_3+... 则变得有界(只要每一步的R是有界的)。
举个例子,R=1情况下:
引入折扣因子时, Return =\sum R_1 + \gamma R_2 + \gamma^2 R_3+...=\frac{1}{1-\gamma}
没有折扣因子时, Return =\sum R_1 + R_2 +R_3+...=+\infty