TD | nex3z's blog

[RL Notes] 线性方法

Author: nex3z 2019-11-05

1. 线性方法　　我们可以在强化学习中使用任意类型的函数进行函数逼近，使用线性函数是最重要的特殊情况之一。线性函数易于理解，便于记性数学计算，而且通过结合领域知识构造合适的特征，可以快速地学习并达到较高的准确度。　　这里的“线性”指的是近似函数 $\hat{v}(\cdot, \boldsymbol{\mathrm{w}})$ 是权重向量 $\boldsymbol{\mathrm{w}}$ 的…
Read more

Reinforcement Learning

Reinforcement Learning, TD

[RL Notes] Sarsa：同轨策略下的时序差分控制

Author: nex3z 2019-10-27

1. 预测算法　　通过 TD(0) 算法可以得到状态价值函数，而为了在广义策略迭代中使用时序差分方法，我们需要的是动作价值函数。　　不同于 TD(0) 算法中只考虑状态之间的转换，现在要考虑“状态-动作”二元组之间的转换，并学习每个“状态-动作”二元组的价值。类似 TD(0) 对状态价值的更新，对“状态-动作”二元组价值的更新如下所示。 \begin{equation} Q(S_t, A_t)…
Read more

Reinforcement Learning

Control, Reinforcement Learning, Sarsa, TD

[RL Notes] 时序差分学习的优势

Author: nex3z 2019-10-27

　　时序差分（TD）学习结合了动态规划（DP）和蒙特卡洛（MC）方法的关键思想，主要有以下优势： TD 像 MC 一样不需要环境模型，可以直接从经验中学习；而 DP 需要环境模型。 TD 像 DP 一样可以自举，而 MC 无法自举。 TD 可以在线增量地更新，DP 和 MC 都无法做到这一点。 TD 可以渐进地收敛到正确的预测值，而且通常收敛得比 MC 快。

Reinforcement Learning

DP, MC, Reinforcement Learning, TD

[RL Notes] 时序差分学习——一个例子

Author: nex3z 2019-10-27

1. 问题　　使用《强化学习》（第二版）例 6.1 中开车回家的例子，在下班开车回家的路途中，不断地记录路上消耗的时间和估计到家的时间： 18:00 – 离开办公室的时间记为时刻 0，估计 30 分钟后到家。 18:05 – 5 分钟后到达车旁，发现开始下雨，估计路上会花更多时间，于是估计还要花 35 分钟到家（算上已经花费的 5 分钟，估计到家花费的总时间为 40 分钟…
Read more

Reinforcement Learning

MC, Reinforcement Learning, TD

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tag Archive: TD

[RL Notes] 线性方法

[RL Notes] Sarsa：同轨策略下的时序差分控制

[RL Notes] 时序差分学习的优势

[RL Notes] 时序差分学习——一个例子