[RL Note] 加权重要度采样及增量实现
1. 加权重要度采样 前文 MC 预测算法中使用的简单重要度采样定义为 \begin{equation} V(s) \cdot \frac{\sum\limits_{t \in \mathcal{T}(s)} \rho_{t:T(t)-1} G_t}{|\mathcal{T}(s)|} \tag{1} \end{equation} 其中 $\mathcal{T}(s)$ 为所有访问过状态 $s…
Read more
learn, build, evaluate
1. 加权重要度采样 前文 MC 预测算法中使用的简单重要度采样定义为 \begin{equation} V(s) \cdot \frac{\sum\limits_{t \in \mathcal{T}(s)} \rho_{t:T(t)-1} G_t}{|\mathcal{T}(s)|} \tag{1} \end{equation} 其中 $\mathcal{T}(s)$ 为所有访问过状态 $s…
Read more