[RL Notes] 期望 Sarsa
1. 期望 Sarsa 回顾 Sarsa 预测算法 的更新规则 \begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \big[ R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) – Q(S_t, A_t) \big] \tag{1} \end{equation} 其中 $S_{t+1}$ …
Read more
learn, build, evaluate
1. 期望 Sarsa 回顾 Sarsa 预测算法 的更新规则 \begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \big[ R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) – Q(S_t, A_t) \big] \tag{1} \end{equation} 其中 $S_{t+1}$ …
Read more