[RL Notes] 时序差分学习
在预测问题中,我们的目标是估计价值函数 \begin{equation} v_\pi(s) \doteq \mathbb{E}[G_t|S_t = s] \tag{1} \end{equation} 即从给定状态开始能获得的回报。在使用蒙特卡洛方法进行策略评估时,可以通过下式增量地对估计值进行更新 \begin{equation} V(S_t) \leftarrow V(S…
Read more
learn, build, evaluate
在预测问题中,我们的目标是估计价值函数 \begin{equation} v_\pi(s) \doteq \mathbb{E}[G_t|S_t = s] \tag{1} \end{equation} 即从给定状态开始能获得的回报。在使用蒙特卡洛方法进行策略评估时,可以通过下式增量地对估计值进行更新 \begin{equation} V(S_t) \leftarrow V(S…
Read more