随机策略梯度定理

值函数方法在一些应用里发挥了重要的作用，但是也有一些局限：

值函数导向找到一个确定性的策略，但是通常最优策略是随机策略（sutton2000论述）；
在值函数的估计中，一个小的变化就会导致动作是否被选择发生改变；

Policy Gradient Theorm

时间 $t\in\{0,1,2,\dots\}$
状态 $s_r\in \mathcal{S}$
动作 $a_t\in\mathcal{A}$
奖励 $r_t\in\mathbb{R}$
状态转移概率 $\mathcal{P}_{ss'}^a = Pr\{s_{t+1}=s'|s_t=s, a_t=a\}$
期望奖励 $\mathcal{R}_s^a = E\{r_{t+1}|s_t=s, a_t=a\},\ \forall s,s'\in\mathcal{S},a\in\mathcal{A}$
策略 $\pi(s,a,\theta)=Pr\{a_t=a|s_t=s,\theta\}$

假设策略 $\pi$ 是可导的，即 $\frac{\partial \pi(s,a)}{\partial \theta}$ 存在。

随机策略梯度定理

对于任何的MDP，无论是平均奖励或是初始状态构建方式，都有如下的梯度形式：

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) \]

针对函数近似，有两种有效的方式可以构建目标：

平均奖励
从指定初始状态 $s_0$ 开始的折扣期望奖赏

在梯度的表达式中均没有关于 $d^\pi(s)$ 的梯度 $\frac{\partial d^\pi(s)}{\partial \theta}$ ，也就是说策略改变对状态分布的影响并没有出现。

这就使得通过策略 $\pi$ 进行采样非常方便。

如果状态 $s$ 是从策略 $\pi$ 采样得到，那么 $\sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )$ 就是 $\frac{\partial \rho}{\partial \theta}$ 的无偏估计。但是梯度表达式中的 $Q^\pi(s,a)$ 是真实值，在学习过程也是不知道的，同样需要估计。

一种方法是使用实际过程中的奖励， $ R _ { t } = \sum _ { k = 1 } ^ { \infty } r _ { t + k } - \rho ( \pi )$ ，或者是start-state表示下的 $R _ { t } = \sum _ { k = 1 } ^ { \infty } \gamma ^ { k - 1 } r _ { t + k }$，这就是episodic 的REINFORCE 算法。

平均奖励

目标（平均奖励）：

\[\rho ( \pi ) = \lim _ { n \rightarrow \infty } \frac { 1 } { n } E \{ r _ { 1 } + r _ { 2 } + \cdots + r _ { n } | \pi \} = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \mathcal{R} _ { s } ^ { a } \]

这个平均奖励是针对与其策略 $\pi$ 而言的，表示其能获得多少奖励。

相当于是这个策略 $\pi$ 固定之后，这个 $

在策略 $\pi$ 下的稳态分布： $d ^ { \pi } ( s ) = \lim _ { t \rightarrow \infty } \operatorname { Pr } \{ s _ { t } = s | s _ { 0 } , \pi \}$

$\rho(\pi)$ 取了 $n\to\infty$ 的极限，在取极限的情况下，就表示稳态下所有状态可能出现的概率乘以该状态下的期望奖励，也就是说也可以写成是 $\rho(\pi) = E_{s}E_aR_s^a$ 。

平均奖励下的动作值函数：

\[Q ^ { \pi } ( s , a ) = \sum _ { t = 1 } ^ { \infty } E \{ r _ { t } - \rho ( \pi ) | s _ { 0 } = s , a _ { 0 } = a , \pi \} , \quad \forall s \in \mathcal{S} , a \in \mathcal{A} \]

这个评价指标是假设输入的 $s$ 和 $a$ 作为初始状态和初始动作的话，采取动作 $a$ 能获得相较于随机执行策略 $\pi$ 多的奖励。

根据后续证明，这个动作值函数的当前奖励就是 $r_t-\rho(\pi)$ 。

Proof

\[\begin{aligned} \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } & \stackrel { \text { def } } { = } \quad \frac { \partial } { \partial \theta } \sum _ { a } \pi ( s , a ) Q ^ { \pi } ( s , a ) \quad \forall s \in S\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } Q ^ { \pi } ( s , a ) \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } \Bigg[ R _ { s } ^ { a } - \rho ( \pi ) + \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } V ^ { \pi } ( s ^ { \prime } ) \Bigg] \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \Bigg[ - \frac { \partial \rho } { \partial \theta } + \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg] \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) - \pi ( s , a ) \frac { \partial \rho } { \partial \theta } + \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg] - \frac { \partial \rho } { \partial \theta } \end{aligned} \]

\[\therefore \frac { \partial \rho } { \partial \theta } = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg] - \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } \]

左右分别使用 $d^\pi(s)$ 加权求和：

\[{ \sum _ { s } d ^ { \pi } ( s ) \frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } }{ - \sum _ { s } d ^ { \pi } ( s ) \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } } \]

其中一个不容易直接看出的步骤：

\[\begin{aligned} \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \sum _ { s ^ { \prime } } \pi ( s , a ) P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { s ^ { \prime } } \sum _ { a } \pi ( s , a ) P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\ & = \sum _ { s } \sum _ { s ^ { \prime } } d ^ { \pi } ( s ) P _ { s s ^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\ & = \sum _ { s ^ { \prime } } \sum _ { s } d ^ { \pi } ( s ) P _ { s s ^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\ & = \sum _ { s ^ { \prime } } d ^ { \pi } ( s ^ { \prime } ) \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \end{aligned} \]

\[\begin{aligned} \sum _ { s } d ^ { \pi } ( s ) \frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } d ^ { \pi } ( s ^ { \prime } ) \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } - \sum_s d ^ { \pi } ( s ) \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } \end{aligned} \]

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) \]

从状态开始的累积折扣奖赏

常用的目标记法

目标（从特定状态 $s_0$ 开始的累积折扣奖赏）：

\[\rho ( \pi ) = E \{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | s _ { 0 } , \pi \} \]

动作值函数：

\[Q ^ { \pi } ( s , a ) = E \{ \sum _ { k = 1 } ^ { \infty } \gamma ^ { k - 1 } r _ { t + k } | s _ { t } = s , a _ { t } = a , \pi \} \]

在这种描述形式下， $d^\pi(s)$ 是从 $s_0$ 开始的各个时间 $s$ 出现的带折扣的概率之和。

$d^\pi(s) = \sum_{t=0}^\infty \gamma^t Pr\{s_t=s|s_0,\pi\}$

Proof

\[\begin{aligned} \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } & \stackrel { \text { def } } { = } \quad \frac { \partial } { \partial \theta } \sum _ { a } \pi ( s , a ) Q ^ { \pi } ( s , a ) \quad \forall s \in S\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } Q ^ { \pi } ( s , a ) \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } \Bigg[ R _ { s } ^ { a } + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } V ^ { \pi } ( s ^ { \prime } ) \Bigg] \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \frac { \partial } { \partial \theta } V ^ { \pi } ( s ^ { \prime } ) \Bigg]\\ & = \sum _ { x } \sum _ { k = 0 } ^ { \infty } \gamma ^ { k } \operatorname { Pr } ( s \rightarrow x , k , \pi ) \sum _ { a } \frac { \partial \pi ( x , a ) } { \partial \theta } Q ^ { \pi } ( x , a ) \end{aligned} \]

$\operatorname { Pr } ( s \rightarrow x , k , \pi )$: 指的是从状态 $s$ 在策略 $\pi$ 下经过 $k$ 步到状态 $x$ 的概率；

中间递归的步骤：

\[\frac { \partial V ^ { \pi } ( s ) } { \partial \theta } { = } \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } )} { \partial \theta } \Bigg] \]

\[\frac { \partial V ^ { \pi } ( s^ { \prime } ) } { \partial \theta } { = } \sum _ { a } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a ) + \pi ( s^ { \prime } , a ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg] \]

\[\begin{aligned} \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } & { = } \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } )} { \partial \theta } \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg] \Bigg]\\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { a } \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]\\ % 这一步还是用到了上面提到的不太容易直接看出来的状态转移 & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \sum _ { a } \pi ( s , a ) \gamma P _ { s s ^ { \prime } } ^ { a } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]\\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]\\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \sum _ { s ^ { \prime\prime } } \gamma^2 P _ { s s ^ { \prime\prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \\ & = \sum _ { x } \sum _ { k = 0 } ^ { \infty } \gamma ^ { k } \operatorname { Pr } ( s \rightarrow x , k , \pi ) \sum _ { a } \frac { \partial \pi ( x , a ) } { \partial \theta } Q ^ { \pi } ( x , a ) \end{aligned} \]

\[\begin{aligned} \frac { \partial \rho } { \partial \theta } & = \frac { \partial } { \partial \theta } E \{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | s _ { 0 } , \pi \} = \frac { \partial } { \partial \theta } V ^ { \pi } ( s _ { 0 } ) \\ & = \sum _ { s } \sum _ { k = 0 } ^ { \infty } \gamma ^ { k } \operatorname { Pr } ( s _ { 0 } \rightarrow s , k , \pi ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )\\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) \end{aligned} \]

近似的策略梯度

这里主要是考虑通过学习函数近似得到估计的 $Q^\pi(s,a)$ ，如果学习的足够好，那么就可以去到真实的 $Q$ 值，但是仍然可以为梯度的方向提供大致的指导。

函数近似：$ f _ { w } : S \times A \rightarrow \mathbb{R}$

更新近似参数还是最小化平方误差：

\[\Delta w _ { t } \propto \frac { \partial } { \partial w } [ \hat { Q } ^ { \pi } ( s _ { t } , a _ { t } ) - f _ { w } （s_t, a_t)]^2 \propto [ \hat { Q } ^ { \pi } ( s _ { t } , a _ { t } ) - f _ { w } ( s _ { t } , a _ { t } ) ] \frac { \partial f _ { w } ( s _ { t } , a _ { t } ) } { \partial w } \]

其中 $ \hat { Q } ^ { \pi } ( s _ { t } , a _ { t } ) $ 是 $Q ^ { \pi } ( s _ { t } , a _ { t } ) $ 或 $R_t$ 的无偏估计。

使用近似的策略梯度

如果 $f_\omega$ 满足如下（1）表达式，并且同时能够有表达式（2）的形式来兼容策略的参数，那么就可以使用 $f_\omega$ 来作为真实 $Q^\pi(s,a)$ 的估计。

\[\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) [ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) ] \frac { \partial f _ { w } ( s , a ) } { \partial w } = 0 \tag1 \]

\[\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) }\tag2 \]

Proof

结合（1）（2）两式，$f_\omega(s,a)$ 的误差正交于策略 $\pi(s,a)$ 的梯度：

\[\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } [ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) ] = 0 \]

\[\begin{aligned} \frac { \partial \rho } { \partial \theta } & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) - \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } [ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) ] \\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } [ Q ^ { \pi } ( s , a ) - Q ^ { \pi } ( s , a ) + f _ { w } ( s , a ) ]\\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } f _ { w } ( s , a ) \end{aligned} \]

posted @ 2020-11-03 22:36 米么裤阅读(443) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

米么裤

随机策略梯度定理

随机策略梯度定理

Policy Gradient Theorm

随机策略梯度定理

平均奖励

Proof

从状态开始的累积折扣奖赏

Proof

近似的策略梯度

使用近似的策略梯度

Proof

公告