Tag Archive: Prediction

[RL Note] 重要度采样和离轨蒙特卡洛预测

1. 基于重要度采样的离轨策略   前文中的蒙特卡洛预测算法通过计算回报的平均值来估计状态价值,即 \begin{equation} v_\pi(s) \doteq \mathbb{E}_\pi[G_t|S_t = s] = \mathrm{average}(Returns(s)) \tag{1} \end{equation} 而在离轨策略中,样本是通过行动策略获得的,此时计算回报的平均值估计的是…
Read more