Tag Archive: MC

[RL Notes] 时序差分学习的优势

Author: nex3z 2019-10-27

　　时序差分（TD）学习结合了动态规划（DP）和蒙特卡洛（MC）方法的关键思想，主要有以下优势： TD 像 MC 一样不需要环境模型，可以直接从经验中学习；而 DP 需要环境模型。 TD 像 DP 一样可以自举，而 MC 无法自举。 TD 可以在线增量地更新，DP 和 MC 都无法做到这一点。 TD 可以渐进地收敛到正确的预测值，而且通常收敛得比 MC 快。

Reinforcement Learning

DP, MC, Reinforcement Learning, TD

[RL Notes] 时序差分学习——一个例子

Author: nex3z 2019-10-27

1. 问题　　使用《强化学习》（第二版）例 6.1 中开车回家的例子，在下班开车回家的路途中，不断地记录路上消耗的时间和估计到家的时间： 18:00 – 离开办公室的时间记为时刻 0，估计 30 分钟后到家。 18:05 – 5 分钟后到达车旁，发现开始下雨，估计路上会花更多时间，于是估计还要花 35 分钟到家（算上已经花费的 5 分钟，估计到家花费的总时间为 40 分钟…
Read more

Reinforcement Learning

MC, Reinforcement Learning, TD

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31