[RL Notes] Q 学习:离轨策略下的时序差分控制
1. Q 学习 Q 学习是一种离轨策略下时序差分控制算法,它的更新规则为 \begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \big[R_{t+1} + \gamma \max_{a}Q(S_{t+1}, a) – Q(S_t, A_t) \big] \tag{1} \end{equation} 式 $(1)$…
Read more
learn, build, evaluate
1. Q 学习 Q 学习是一种离轨策略下时序差分控制算法,它的更新规则为 \begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \big[R_{t+1} + \gamma \max_{a}Q(S_{t+1}, a) – Q(S_t, A_t) \big] \tag{1} \end{equation} 式 $(1)$…
Read more