[RL Notes] 加权重要度采样及增量实现
1. 加权重要度采样 MC 预测算法中使用的简单重要度采样定义为 \begin{equation} V(s) \doteq \frac{\sum\limits_{t \in \mathcal{T}(s)} \rho_{t:T(t)-1} G_t}{|\mathcal{T}(s)|} \tag{1} \end{equation} 其中 $\mathcal{T}(s)$ 为所有访问过状态 $s$ …
Read more
learn, build, evaluate
1. 加权重要度采样 MC 预测算法中使用的简单重要度采样定义为 \begin{equation} V(s) \doteq \frac{\sum\limits_{t \in \mathcal{T}(s)} \rho_{t:T(t)-1} G_t}{|\mathcal{T}(s)|} \tag{1} \end{equation} 其中 $\mathcal{T}(s)$ 为所有访问过状态 $s$ …
Read more