随机策略梯度定理
值函数方法在一些应用里发挥了重要的作用,但是也有一些局限:
- 值函数导向找到一个确定性的策略,但是通常最优策略是随机策略(sutton2000论述);
- 在值函数的估计中,一个小的变化就会导致动作是否被选择发生改变;
Policy Gradient Theorm
- 时间 \(t\in\{0,1,2,\dots\}\)
- 状态 \(s_r\in \mathcal{S}\)
- 动作 \(a_t\in\mathcal{A}\)
- 奖励 \(r_t\in\mathbb{R}\)
- 状态转移概率 \(\mathcal{P}_{ss'}^a = Pr\{s_{t+1}=s'|s_t=s, a_t=a\}\)
- 期望奖励 \(\mathcal{R}_s^a = E\{r_{t+1}|s_t=s, a_t=a\},\ \forall s,s'\in\mathcal{S},a\in\mathcal{A}\)
- 策略 \(\pi(s,a,\theta)=Pr\{a_t=a|s_t=s,\theta\}\)
假设策略 \(\pi\) 是可导的,即 \(\frac{\partial \pi(s,a)}{\partial \theta}\) 存在。
随机策略梯度定理
对于任何的MDP,无论是平均奖励或是初始状态构建方式,都有如下的梯度形式:
\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )
\]
针对函数近似,有两种有效的方式可以构建目标:
- 平均奖励
- 从指定初始状态 \(s_0\) 开始的折扣期望奖赏
在梯度的表达式中均没有关于 \(d^\pi(s)\) 的梯度 \(\frac{\partial d^\pi(s)}{\partial \theta}\) ,也就是说策略改变对状态分布的影响并没有出现。
这就使得通过策略 \(\pi\) 进行采样非常方便。
如果状态 \(s\) 是从策略 \(\pi\) 采样得到,那么 \(\sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )\) 就是 \(\frac{\partial \rho}{\partial \theta}\) 的无偏估计。 但是梯度表达式中的 \(Q^\pi(s,a)\) 是真实值,在学习过程也是不知道的,同样需要估计。
一种方法是使用实际过程中的奖励, $ R _ { t } = \sum _ { k = 1 } ^ { \infty } r _ { t + k } - \rho ( \pi )$ ,或者是start-state表示下的 \(R _ { t } = \sum _ { k = 1 } ^ { \infty } \gamma ^ { k - 1 } r _ { t + k }\), 这就是episodic 的REINFORCE 算法。
平均奖励
\[\rho ( \pi ) = \lim _ { n \rightarrow \infty } \frac { 1 } { n } E \{ r _ { 1 } + r _ { 2 } + \cdots + r _ { n } | \pi \} = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \mathcal{R} _ { s } ^ { a }
\]
这个平均奖励是针对与其策略 \(\pi\) 而言的,表示其能获得多少奖励。
相当于是这个策略 \(\pi\) 固定之后,这个 $
- 在策略 \(\pi\) 下的稳态分布: \(d ^ { \pi } ( s ) = \lim _ { t \rightarrow \infty } \operatorname { Pr } \{ s _ { t } = s | s _ { 0 } , \pi \}\)
\(\rho(\pi)\) 取了 \(n\to\infty\) 的极限, 在取极限的情况下,就表示稳态下所有状态可能出现的概率乘以该状态下的期望奖励,也就是说也可以写成是 \(\rho(\pi) = E_{s}E_aR_s^a\) 。
\[Q ^ { \pi } ( s , a ) = \sum _ { t = 1 } ^ { \infty } E \{ r _ { t } - \rho ( \pi ) | s _ { 0 } = s , a _ { 0 } = a , \pi \} , \quad \forall s \in \mathcal{S} , a \in \mathcal{A}
\]
这个评价指标是假设输入的 \(s\) 和 \(a\) 作为初始状态和初始动作的话,采取动作 \(a\) 能获得相较于随机执行策略 \(\pi\) 多的奖励。
根据后续证明,这个动作值函数的当前奖励就是 \(r_t-\rho(\pi)\) 。
Proof
\[\begin{aligned}
\frac { \partial V ^ { \pi } ( s ) } { \partial \theta } & \stackrel { \text { def } } { = } \quad \frac { \partial } { \partial \theta } \sum _ { a } \pi ( s , a ) Q ^ { \pi } ( s , a ) \quad \forall s \in S\\
& = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } Q ^ { \pi } ( s , a ) \Bigg]\\
& = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } \Bigg[ R _ { s } ^ { a } - \rho ( \pi ) + \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } V ^ { \pi } ( s ^ { \prime } ) \Bigg] \Bigg]\\
& = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \Bigg[ - \frac { \partial \rho } { \partial \theta } + \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg] \Bigg]\\
& = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) - \pi ( s , a ) \frac { \partial \rho } { \partial \theta } + \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg]\\
& = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg] - \frac { \partial \rho } { \partial \theta }
\end{aligned}
\]
\[\therefore \frac { \partial \rho } { \partial \theta } = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \Bigg] - \frac { \partial V ^ { \pi } ( s ) } { \partial \theta }
\]
左右分别使用 \(d^\pi(s)\) 加权求和:
\[{ \sum _ { s } d ^ { \pi } ( s ) \frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } }{ - \sum _ { s } d ^ { \pi } ( s ) \frac { \partial V ^ { \pi } ( s ) } { \partial \theta } }
\]
其中一个不容易直接看出的步骤:
\[\begin{aligned}
\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \sum _ { s ^ { \prime } } \pi ( s , a ) P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } \\
& = \sum _ { s } d ^ { \pi } ( s ) \sum _ { s ^ { \prime } } \sum _ { a } \pi ( s , a ) P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\
& = \sum _ { s } d ^ { \pi } ( s ) \sum _ { s ^ { \prime } } P _ { s s ^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\
& = \sum _ { s } \sum _ { s ^ { \prime } } d ^ { \pi } ( s ) P _ { s s ^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\
& = \sum _ { s ^ { \prime } } \sum _ { s } d ^ { \pi } ( s ) P _ { s s ^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }\\
& = \sum _ { s ^ { \prime } } d ^ { \pi } ( s ^ { \prime } ) \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta }
\end{aligned}
\]
\[\begin{aligned}
\sum _ { s } d ^ { \pi } ( s ) \frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } d ^ { \pi } ( s ^ { \prime } ) \frac { \partial V ^ { \pi } ( s ^ { \prime } ) } { \partial \theta } - \sum_s d ^ { \pi } ( s ) \frac { \partial V ^ { \pi } ( s ) } { \partial \theta }
\end{aligned}
\]
\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )
\]
从状态开始的累积折扣奖赏
常用的目标记法
- 目标(从特定状态 \(s_0\) 开始的累积折扣奖赏):
\[\rho ( \pi ) = E \{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | s _ { 0 } , \pi \}
\]
\[Q ^ { \pi } ( s , a ) = E \{ \sum _ { k = 1 } ^ { \infty } \gamma ^ { k - 1 } r _ { t + k } | s _ { t } = s , a _ { t } = a , \pi \}
\]
在这种描述形式下, \(d^\pi(s)\) 是从 \(s_0\) 开始的各个时间 \(s\) 出现的带折扣的概率之和。
- \(d^\pi(s) = \sum_{t=0}^\infty \gamma^t Pr\{s_t=s|s_0,\pi\}\)
Proof
\[\begin{aligned}
\frac { \partial V ^ { \pi } ( s ) } { \partial \theta } & \stackrel { \text { def } } { = } \quad \frac { \partial } { \partial \theta } \sum _ { a } \pi ( s , a ) Q ^ { \pi } ( s , a ) \quad \forall s \in S\\
& = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } Q ^ { \pi } ( s , a ) \Bigg]\\
& = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \frac { \partial } { \partial \theta } \Bigg[ R _ { s } ^ { a } + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } V ^ { \pi } ( s ^ { \prime } ) \Bigg] \Bigg]\\
& = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \frac { \partial } { \partial \theta } V ^ { \pi } ( s ^ { \prime } ) \Bigg]\\
& = \sum _ { x } \sum _ { k = 0 } ^ { \infty } \gamma ^ { k } \operatorname { Pr } ( s \rightarrow x , k , \pi ) \sum _ { a } \frac { \partial \pi ( x , a ) } { \partial \theta } Q ^ { \pi } ( x , a )
\end{aligned}
\]
- \(\operatorname { Pr } ( s \rightarrow x , k , \pi )\): 指的是从状态 \(s\) 在策略 \(\pi\) 下经过 \(k\) 步到状态 \(x\) 的概率;
中间递归的步骤:
\[\frac { \partial V ^ { \pi } ( s ) } { \partial \theta } { = } \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } )} { \partial \theta } \Bigg]
\]
\[\frac { \partial V ^ { \pi } ( s^ { \prime } ) } { \partial \theta } { = } \sum _ { a } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a ) + \pi ( s^ { \prime } , a ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]
\]
\[\begin{aligned}
\frac { \partial V ^ { \pi } ( s ) } { \partial \theta } & { = } \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \frac { \partial V ^ { \pi } ( s ^ { \prime } )} { \partial \theta } \Bigg]\\
& = \sum _ { a } \Bigg[ \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg] \Bigg]\\
& = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { a } \pi ( s , a ) \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } ^ { a } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]\\
% 这一步还是用到了上面提到的不太容易直接看出来的状态转移
& = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \sum _ { a } \pi ( s , a ) \gamma P _ { s s ^ { \prime } } ^ { a } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]\\
& = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \Bigg[ \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \Bigg]\\
& = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \pi ( s^ { \prime } , a^ { \prime } ) \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } ^ { a^ { \prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \\
& = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { s ^ { \prime\prime } } \gamma P _ { s^ { \prime } s ^ { \prime\prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \\
& = \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) + \sum _ { s ^ { \prime } } \gamma P _ { s s ^ { \prime } } \sum _ { a^ { \prime } } \frac { \partial \pi ( s^ { \prime } , a^ { \prime } ) } { \partial \theta } Q ^ { \pi } ( s^ { \prime } , a^ { \prime } ) + \sum _ { s ^ { \prime\prime } } \gamma^2 P _ { s s ^ { \prime\prime } } \frac { \partial V ^ { \pi } ( s ^ { \prime\prime } )} { \partial \theta } \\
& = \sum _ { x } \sum _ { k = 0 } ^ { \infty } \gamma ^ { k } \operatorname { Pr } ( s \rightarrow x , k , \pi ) \sum _ { a } \frac { \partial \pi ( x , a ) } { \partial \theta } Q ^ { \pi } ( x , a )
\end{aligned}
\]
\[\begin{aligned}
\frac { \partial \rho } { \partial \theta } & = \frac { \partial } { \partial \theta } E \{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | s _ { 0 } , \pi \} = \frac { \partial } { \partial \theta } V ^ { \pi } ( s _ { 0 } ) \\
& = \sum _ { s } \sum _ { k = 0 } ^ { \infty } \gamma ^ { k } \operatorname { Pr } ( s _ { 0 } \rightarrow s , k , \pi ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )\\
& = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )
\end{aligned}
\]
近似的策略梯度
这里主要是考虑通过学习函数近似得到估计的 \(Q^\pi(s,a)\) ,如果学习的足够好,那么就可以去到真实的 \(Q\) 值,但是仍然可以为梯度的方向提供大致的指导。
- 函数近似:$ f _ { w } : S \times A \rightarrow \mathbb{R}$
更新近似参数还是最小化平方误差:
\[\Delta w _ { t } \propto \frac { \partial } { \partial w } [ \hat { Q } ^ { \pi } ( s _ { t } , a _ { t } ) - f _ { w } (s_t, a_t)]^2 \propto [ \hat { Q } ^ { \pi } ( s _ { t } , a _ { t } ) - f _ { w } ( s _ { t } , a _ { t } ) ] \frac { \partial f _ { w } ( s _ { t } , a _ { t } ) } { \partial w }
\]
其中 $ \hat { Q } ^ { \pi } ( s _ { t } , a _ { t } ) $ 是 $Q ^ { \pi } ( s _ { t } , a _ { t } ) $ 或 \(R_t\) 的无偏估计。
使用近似的策略梯度
如果 \(f_\omega\) 满足如下(1)表达式,并且同时能够有表达式(2)的形式来兼容策略的参数,那么就可以使用 \(f_\omega\) 来作为真实 \(Q^\pi(s,a)\) 的估计。
\[\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) [ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) ] \frac { \partial f _ { w } ( s , a ) } { \partial w } = 0 \tag1
\]
\[\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) }\tag2
\]
Proof
结合(1)(2)两式,\(f_\omega(s,a)\) 的误差正交于策略 \(\pi(s,a)\) 的梯度:
\[\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } [ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) ] = 0
\]
\[\begin{aligned}
\frac { \partial \rho } { \partial \theta } & = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a ) - \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } [ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) ] \\
& = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } [ Q ^ { \pi } ( s , a ) - Q ^ { \pi } ( s , a ) + f _ { w } ( s , a ) ]\\
& = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } f _ { w } ( s , a )
\end{aligned}
\]