随机策略梯度定理

随机策略梯度定理

值函数方法在一些应用里发挥了重要的作用,但是也有一些局限:

  1. 值函数导向找到一个确定性的策略,但是通常最优策略是随机策略(sutton2000论述);
  2. 在值函数的估计中,一个小的变化就会导致动作是否被选择发生改变;

Policy Gradient Theorm

  • 时间 \(t\in\{0,1,2,\dots\}\)
  • 状态 \(s_r\in \mathcal{S}\)
  • 动作 \(a_t\in\mathcal{A}\)
  • 奖励 \(r_t\in\mathbb{R}\)
  • 状态转移概率 \(\mathcal{P}_{ss'}^a = Pr\{s_{t+1}=s'|s_t=s, a_t=a\}\)
  • 期望奖励 \(\mathcal{R}_s^a = E\{r_{t+1}|s_t=s, a_t=a\},\ \forall s,s'\in\mathcal{S},a\in\mathcal{A}\)
  • 策略 \(\pi(s,a,\theta)=Pr\{a_t=a|s_t=s,\theta\}\)

假设策略 \(\pi\) 是可导的,即 \(\frac{\partial \pi(s,a)}{\partial \theta}\) 存在。

随机策略梯度定理

对于任何的MDP,无论是平均奖励或是初始状态构建方式,都有如下的梯度形式:

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) \]

针对函数近似,有两种有效的方式可以构建目标:

  • 平均奖励
  • 从指定初始状态 \(s_0\) 开始的折扣期望奖赏

在梯度的表达式中均没有关于 \(d^\pi(s)\) 的梯度 \(\frac{\partial d^\pi(s)}{\partial \theta}\) ,也就是说策略改变对状态分布的影响并没有出现。

这就使得通过策略 \(\pi\) 进行采样非常方便。

如果状态 \(s\) 是从策略 \(\pi\) 采样得到,那么 \(\sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )\) 就是 \(\frac{\partial \rho}{\partial \theta}\) 的无偏估计。 但是梯度表达式中的 \(Q^\pi(s,a)\) 是真实值,在学习过程也是不知道的,同样需要估计。

一种方法是使用实际过程中的奖励, $ R _ { t } = \sum _ { k = 1 } ^ { \infty } r _ { t + k } - \rho ( \pi )$ ,或者是start-state表示下的 \(R _ { t } = \sum _ { k = 1 } ^ { \infty } \gamma ^ { k - 1 } r _ { t + k }\), 这就是episodic 的REINFORCE 算法。

平均奖励

  • 目标(平均奖励):

\[\rho ( \pi ) = \lim _ { n \rightarrow \infty } \frac { 1 } { n } E \{ r _ { 1 } + r _ { 2 } + \cdots + r _ { n } | \pi \} = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \mathcal{R} _ { s } ^ { a } \]

这个平均奖励是针对与其策略 \(\pi\) 而言的,表示其能获得多少奖励。

相当于是这个策略 \(\pi\) 固定之后,这个 $

  • 在策略 \(\pi\) 下的稳态分布: \(d ^ { \pi } ( s ) = \lim _ { t \rightarrow \infty } \operatorname { Pr } \{ s _ { t } = s | s _ { 0 } , \pi \}\)

\(\rho(\pi)\) 取了 \(n\to\infty\) 的极限, 在取极限的情况下,就表示稳态下所有状态可能出现的概率乘以该状态下的期望奖励,也就是说也可以写成是 \(\rho(\pi) = E_{s}E_aR_s^a\)

  • 平均奖励下的动作值函数:

\[Q ^ { \pi } ( s , a ) = \sum _ { t = 1 } ^ { \infty } E \{ r _ { t } - \rho ( \pi ) | s _ { 0 } = s , a _ { 0 } = a , \pi \} , \quad \forall s \in \mathcal{S} , a \in \mathcal{A} \]

这个评价指标是假设输入的 \(s\)\(a\) 作为初始状态和初始动作的话,采取动作 \(a\) 能获得相较于随机执行策略 \(\pi\) 多的奖励。

根据后续证明,这个动作值函数的当前奖励就是 \(r_t-\rho(\pi)\)

Proof

\[\begin{aligned} \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } & \stackrel { \text { def } } { = } \quad \frac { \partial } { \partial \theta } \sum _ { a } \pi ( s , a ) Q ^ { \pi } ( s , a ) \quad \forall s \in S\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } Q ^ { \pi } ( s , a ) \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } \Bigg[ R _ { s } ^ { a } - \rho ( \pi ) + \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } V ^ { \pi } ( s ^ { \prime } ) \Bigg] \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \Bigg[ - \frac { \partial \rho } { \partial \theta } + \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg] \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) - \pi ( s , a ) \frac { \partial \rho } { \partial \theta } + \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg] - \frac { \partial \rho } { \partial \theta } \end{aligned} \]

\[\therefore \frac { \partial \rho } { \partial \theta } = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg] - \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } \]

左右分别使用 \(d^\pi(s)\) 加权求和:

\[{ \sum _ { s } d ^ { \pi } ( s ) \frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } }{ - \sum _ { s } d ^ { \pi } ( s ) \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } } \]

其中一个不容易直接看出的步骤:

\[\begin{aligned} \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \sum _ { s ^ { \prime } } \pi ( s , a ) P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { s ^ { \prime } } \sum _ { a } \pi ( s , a ) P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\ & = \sum _ { s } \sum _ { s ^ { \prime } } d ^ { \pi } ( s ) P _ { s s ^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\ & = \sum _ { s ^ { \prime } } \sum _ { s } d ^ { \pi } ( s ) P _ { s s ^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\ & = \sum _ { s ^ { \prime } } d ^ { \pi } ( s ^ { \prime } ) \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \end{aligned} \]

\[\begin{aligned} \sum _ { s } d ^ { \pi } ( s ) \frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } d ^ { \pi } ( s ^ { \prime } ) \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } - \sum_s d ^ { \pi } ( s ) \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } \end{aligned} \]

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) \]

从状态开始的累积折扣奖赏

常用的目标记法

  • 目标(从特定状态 \(s_0\) 开始的累积折扣奖赏):

\[\rho ( \pi ) = E \{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | s _ { 0 } , \pi \} \]

  • 动作值函数:

\[Q ^ { \pi } ( s , a ) = E \{ \sum _ { k = 1 } ^ { \infty } \gamma ^ { k - 1 } r _ { t + k } | s _ { t } = s , a _ { t } = a , \pi \} \]

在这种描述形式下, \(d^\pi(s)\) 是从 \(s_0\) 开始的各个时间 \(s\) 出现的带折扣的概率之和。

  • \(d^\pi(s) = \sum_{t=0}^\infty \gamma^t Pr\{s_t=s|s_0,\pi\}\)

Proof

\[\begin{aligned} \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } & \stackrel { \text { def } } { = } \quad \frac { \partial } { \partial \theta } \sum _ { a } \pi ( s , a ) Q ^ { \pi } ( s , a ) \quad \forall s \in S\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } Q ^ { \pi } ( s , a ) \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } \Bigg[ R _ { s } ^ { a } + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } V ^ { \pi } ( s ^ { \prime } ) \Bigg] \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \frac { \partial } { \partial \theta } V ^ { \pi } ( s ^ { \prime } ) \Bigg]\\ & = \sum _ { x } \sum _ { k = 0 } ^ { \infty } \gamma ^ { k } \operatorname { Pr } ( s \rightarrow x , k , \pi ) \sum _ { a } \frac { \partial \pi ( x , a ) } { \partial \theta } Q ^ { \pi } ( x , a ) \end{aligned} \]

  • \(\operatorname { Pr } ( s \rightarrow x , k , \pi )\): 指的是从状态 \(s\) 在策略 \(\pi\) 下经过 \(k\) 步到状态 \(x\) 的概率;

中间递归的步骤:

\[\frac { \partial V ^ { \pi } ( s ) } { \partial \theta } { = } \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } )} { \partial \theta } \Bigg] \]

\[\frac { \partial V ^ { \pi } ( s^ { \prime } ) } { \partial \theta } { = } \sum _ { a } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a ) + \pi ( s^ { \prime } , a ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg] \]

\[\begin{aligned} \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } & { = } \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } )} { \partial \theta } \Bigg]\\ & = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg] \Bigg]\\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { a } \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]\\ % 这一步还是用到了上面提到的不太容易直接看出来的状态转移 & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \sum _ { a } \pi ( s , a ) \gamma P _ { s s ^ { \prime } } ^ { a } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]\\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]\\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \\ & = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \sum _ { s ^ { \prime\prime } } \gamma^2 P _ { s s ^ { \prime\prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \\ & = \sum _ { x } \sum _ { k = 0 } ^ { \infty } \gamma ^ { k } \operatorname { Pr } ( s \rightarrow x , k , \pi ) \sum _ { a } \frac { \partial \pi ( x , a ) } { \partial \theta } Q ^ { \pi } ( x , a ) \end{aligned} \]

\[\begin{aligned} \frac { \partial \rho } { \partial \theta } & = \frac { \partial } { \partial \theta } E \{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | s _ { 0 } , \pi \} = \frac { \partial } { \partial \theta } V ^ { \pi } ( s _ { 0 } ) \\ & = \sum _ { s } \sum _ { k = 0 } ^ { \infty } \gamma ^ { k } \operatorname { Pr } ( s _ { 0 } \rightarrow s , k , \pi ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )\\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) \end{aligned} \]

近似的策略梯度

这里主要是考虑通过学习函数近似得到估计的 \(Q^\pi(s,a)\) ,如果学习的足够好,那么就可以去到真实的 \(Q\) 值,但是仍然可以为梯度的方向提供大致的指导。

  • 函数近似:$ f _ { w } : S \times A \rightarrow \mathbb{R}$

更新近似参数还是最小化平方误差:

\[\Delta w _ { t } \propto \frac { \partial } { \partial w } [ \hat { Q } ^ { \pi } ( s _ { t } , a _ { t } ) - f _ { w } (s_t, a_t)]^2 \propto [ \hat { Q } ^ { \pi } ( s _ { t } , a _ { t } ) - f _ { w } ( s _ { t } , a _ { t } ) ] \frac { \partial f _ { w } ( s _ { t } , a _ { t } ) } { \partial w } \]

其中 $ \hat { Q } ^ { \pi } ( s _ { t } , a _ { t } ) $ 是 $Q ^ { \pi } ( s _ { t } , a _ { t } ) $ 或 \(R_t\) 的无偏估计。

使用近似的策略梯度

如果 \(f_\omega\) 满足如下(1)表达式,并且同时能够有表达式(2)的形式来兼容策略的参数,那么就可以使用 \(f_\omega\) 来作为真实 \(Q^\pi(s,a)\) 的估计。

\[\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) [ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) ] \frac { \partial f _ { w } ( s , a ) } { \partial w } = 0 \tag1 \]

\[\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) }\tag2 \]

Proof

结合(1)(2)两式,\(f_\omega(s,a)\) 的误差正交于策略 \(\pi(s,a)\) 的梯度:

\[\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } [ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) ] = 0 \]

\[\begin{aligned} \frac { \partial \rho } { \partial \theta } & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) - \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } [ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) ] \\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } [ Q ^ { \pi } ( s , a ) - Q ^ { \pi } ( s , a ) + f _ { w } ( s , a ) ]\\ & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } f _ { w } ( s , a ) \end{aligned} \]

posted @ 2020-11-03 22:36  米么裤  阅读(443)  评论(0编辑  收藏  举报