Tag Archive: Q Learning

[RL Notes] Q 学习：离轨策略下的时序差分控制

Author: nex3z 2019-10-27

1. Q 学习　　Q 学习是一种离轨策略下时序差分控制算法，它的更新规则为 \begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \big[R_{t+1} + \gamma \max_{a}Q(S_{t+1}, a) – Q(S_t, A_t) \big] \tag{1} \end{equation} 式 $(1)$…
Read more

Reinforcement Learning

Q Learning, Reinforcement Learning

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31