[RL Notes] 时序差分学习
在预测问题中,我们的目标是估计价值函数 \begin{equation} v_\pi(s) \doteq \mathbb{E}[G_t|S_t = s] \tag{1} \end{equation} 即从给定状态开始能获得的回报。在使用蒙特卡洛方法进行策略评估时,可以通过下式增量地对估计值进行更新 \begin{equation} V(S_t) \leftarrow V(S…
Read more
learn, build, evaluate
在预测问题中,我们的目标是估计价值函数 \begin{equation} v_\pi(s) \doteq \mathbb{E}[G_t|S_t = s] \tag{1} \end{equation} 即从给定状态开始能获得的回报。在使用蒙特卡洛方法进行策略评估时,可以通过下式增量地对估计值进行更新 \begin{equation} V(S_t) \leftarrow V(S…
Read more
结合加权重要度采样的增量实现,可以得到对应的离轨策略 MC 控制算法如下所示。 离轨策略 MC 控制算法,用于估计 $\pi \approx \pi_*$ 初始化:对所有 $s \in \mathcal{S}$,$a \in \mathcal{A(s)}$: $Q(s, a) \in \mathbb{R}$(任意值) $C(s, a) \leftarrow …
Read more
1. 加权重要度采样 MC 预测算法中使用的简单重要度采样定义为 \begin{equation} V(s) \doteq \frac{\sum\limits_{t \in \mathcal{T}(s)} \rho_{t:T(t)-1} G_t}{|\mathcal{T}(s)|} \tag{1} \end{equation} 其中 $\mathcal{T}(s)$ 为所有访问过状态 $s$ …
Read more