27 | 10 月 | 2019 | nex3z's blog

[RL Notes] Q 学习：离轨策略下的时序差分控制

Author: nex3z 2019-10-27

1. Q 学习　　Q 学习是一种离轨策略下时序差分控制算法，它的更新规则为 \begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \big[R_{t+1} + \gamma \max_{a}Q(S_{t+1}, a) – Q(S_t, A_t) \big] \tag{1} \end{equation} 式 $(1)$…
Read more

Reinforcement Learning

Q Learning, Reinforcement Learning

[RL Notes] Sarsa：同轨策略下的时序差分控制

Author: nex3z 2019-10-27

1. 预测算法　　通过 TD(0) 算法可以得到状态价值函数，而为了在广义策略迭代中使用时序差分方法，我们需要的是动作价值函数。　　不同于 TD(0) 算法中只考虑状态之间的转换，现在要考虑“状态-动作”二元组之间的转换，并学习每个“状态-动作”二元组的价值。类似 TD(0) 对状态价值的更新，对“状态-动作”二元组价值的更新如下所示。 \begin{equation} Q(S_t, A_t)…
Read more

Reinforcement Learning

Control, Reinforcement Learning, Sarsa, TD

[RL Notes] 时序差分学习的优势

Author: nex3z 2019-10-27

　　时序差分（TD）学习结合了动态规划（DP）和蒙特卡洛（MC）方法的关键思想，主要有以下优势： TD 像 MC 一样不需要环境模型，可以直接从经验中学习；而 DP 需要环境模型。 TD 像 DP 一样可以自举，而 MC 无法自举。 TD 可以在线增量地更新，DP 和 MC 都无法做到这一点。 TD 可以渐进地收敛到正确的预测值，而且通常收敛得比 MC 快。

Reinforcement Learning

DP, MC, Reinforcement Learning, TD

[RL Notes] 时序差分学习——一个例子

Author: nex3z 2019-10-27

1. 问题　　使用《强化学习》（第二版）例 6.1 中开车回家的例子，在下班开车回家的路途中，不断地记录路上消耗的时间和估计到家的时间： 18:00 – 离开办公室的时间记为时刻 0，估计 30 分钟后到家。 18:05 – 5 分钟后到达车旁，发现开始下雨，估计路上会花更多时间，于是估计还要花 35 分钟到家（算上已经花费的 5 分钟，估计到家花费的总时间为 40 分钟…
Read more

Reinforcement Learning

MC, Reinforcement Learning, TD

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Daily Archive: 2019-10-27

[RL Notes] Q 学习：离轨策略下的时序差分控制

[RL Notes] Sarsa：同轨策略下的时序差分控制

[RL Notes] 时序差分学习的优势

[RL Notes] 时序差分学习——一个例子