Markov Decision Process 为什么用到discount factor?

如题。最近在读 An Introduction to Deep Reinforcement Learning 这本书。在第17页,这本书提到了 Mar…
关注者
4
被浏览
1,082
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

引入折扣因子是为了让价值函数V(s)或者动态价值函数Q(s,a)在Infinite Horizon环境(没有终止状态的环境)下有界。实际上,对于Finite Horizon环境(环境到了指定步长后结束回合),也可以不用折扣因子。

如果没有折扣因子 Return =\sum R_1 + R_2 +R_3+... 很有可能是无穷大的。如果是Return是无穷大的,就难以定量研究价值函数V(s)或者动态价值函数Q(s,a)。

引入折扣因子后, Return =\sum R_1 + \gamma R_2 + \gamma^2 R_3+... 则变得有界(只要每一步的R是有界的)。

举个例子,R=1情况下:

引入折扣因子时, Return =\sum R_1 + \gamma R_2 + \gamma^2 R_3+...=\frac{1}{1-\gamma}

没有折扣因子时, Return =\sum R_1 + R_2 +R_3+...=+\infty