[RL Note] 同轨预测的目标

1. 均方价值误差

  在使用监督学习的方法学习价值函数时,也可以使用误差平方的方式衡量学习的价值函数与真实价值函数在某个状态上的差异。通常情况下,一个状态的更新会影响许多其他状态,在一个状态上的估计价值较准确就意味着别的状态的估计价值变得不那么准确,此时就需要进行取舍:指定那些状态是我们最关心的,着重优化这些状态。由此得到均方价值误差

\begin{equation}
\overline{\mathrm{VE}}(\boldsymbol{\mathrm{w}}) \doteq \sum_{s \in \mathcal{S}} \mu(s) \Big[v_{\pi}(s) – \hat{v}(s, \boldsymbol{\mathrm{w}})\Big]^2 \tag{1}
\end{equation}

其中 $\mu(s) \geq 0$ 是状态的分布,满足 $\sum\limits_s \mu(s) = 1$,表示对每个状态 $s$ 的误差的重视程度。经常被访问到的状态具有较大 $\mu(s)$,从而具有较大的权重,而不经常被访问的状态权重较小。

2. 梯度下降

  在梯度下降法中,权重向量

\begin{equation}
\boldsymbol{\mathrm{w}} \doteq (w_1, w_2, \cdots, w_d)^\mathsf{T}
\end{equation}

是一个由实数组成的列向量。近似价值函数 $\hat{v}(s, \boldsymbol{\mathrm{w}})$ 满足对所有 $s \in \mathcal S$,函数对 $\boldsymbol{\mathrm{w}}$ 都是可微的。

  随机梯度下降(stochastic gradient-descent, SGD)方法对于每一个样本,将权重向量朝着能减小这个样本的误差的方向移动一小步

\begin{align}
\boldsymbol{\mathrm{w}}_{t+1} &\doteq \boldsymbol{\mathrm{w}}_t – \frac{1}{2} \alpha \nabla \Big[v_{\pi}(S_t) – \hat{v}(S_t, \boldsymbol{\mathrm{w}}_t)\Big]^2 \\
&= \boldsymbol{\mathrm{w}}_t + \alpha \Big[v_{\pi}(S_t) – \hat{v}(S_t, \boldsymbol{\mathrm{w}}_t)\Big] \nabla \hat{v}(S_t, \boldsymbol{\mathrm{w}}_t) \tag{2}
\end{align}

其中 $\alpha$ 是一个正的步长参数。对于任意关于向量 $\boldsymbol{\mathrm{w}}$ 的标量函数 $f(\boldsymbol{\mathrm{w}})$,$\nabla f(\boldsymbol{\mathrm{w}})$ 为该函数的梯度

\begin{equation}
\nabla f(\boldsymbol{\mathrm{w}}) \doteq \bigg(\frac{\partial f(\boldsymbol{\mathrm{w}})}{\partial w_1}, \frac{\partial f(\boldsymbol{\mathrm{w}})}{\partial w_2}, \cdots, \frac{\partial f(\boldsymbol{\mathrm{w}})}{\partial w_d}\bigg)^\mathsf{T} \tag{3}
\end{equation}

  在实际问题中,往往无法直接获得真实价值 $v_{\pi}(s)$,此时第 $t$ 个训练样本 $S_t \mapsto U_t$ 的目标输出 $U_t \in \mathbb{R}$ 就不是真实的价值 $v_{\pi}(S_t)$,而是它的一个随机近似。由于 $v_{\pi}(S_t)$ 未知,就无法直接使用式 $(2)$ 进行更新,但是可以用 $U_t$ 近似取代 $v_{\pi}(S_t)$,得到用于进行状态价值函数预测的通用 SGD 方法

\begin{equation}
\boldsymbol{\mathrm{w}}_{t+1} \doteq \boldsymbol{\mathrm{w}}_t + \alpha \Big[U_t – \hat{v}(S_t, \boldsymbol{\mathrm{w}}_t)\Big] \nabla \hat{v}(S_t, \boldsymbol{\mathrm{w}}_t) \tag{4}
\end{equation}

3. 梯度蒙特卡洛算法

  假设样本中的状态是通过策略 $\pi$ 与环境进行交互得到的,由于状态的价值定义为该状态之后所有回报的期望,蒙特卡洛目标 $U_t \doteq G_t$ 就是 $v_\pi(S_t)$ 的无偏估计,此时通用 SGD 方法会收敛到 $v_\pi(S_t)$ 的一个局部最优近似,即蒙特卡洛状态价值函数的梯度下降版本可以保证找到一个局部最优解。完整算法如下所示。


梯度蒙特卡洛算法,用于估计 $\hat{v} \approx v_\pi$
输入:待评估的策略 $\pi$
输入:一个可微的函数 $\hat{v}: \mathcal{S} \times \mathbb{R}^d \rightarrow \mathbb{R}$
算法参数:步长 $\alpha > 0$
对价值函数的权值 $\boldsymbol{\mathrm{w}} \in \mathbb{R}^d$ 进行任意的初始化(例如 $\boldsymbol{\mathrm{w}} = 0$)
无限循环(对每一幕):
  根据 $\pi$ 生成一幕交互数据 $S_0, A_0, R_1, S_1, A_1, \cdots, R_T, S_T$
  对该幕的每一步 $t = 0, 1, \cdots, T-1$
    $\boldsymbol{\mathrm{w}} \leftarrow \boldsymbol{\mathrm{w}} + \alpha \Big[G_t – \hat{v}(S_t, \boldsymbol{\mathrm{w}})\Big] \nabla\hat{v}(S_t, \boldsymbol{\mathrm{w}})$