Tag Archive: MC

[RL Note] 时序差分学习的优势

1. 时序差分学习的优势   时序差分(TD)学习结合了动态规划(DP)和蒙特卡洛(MC)方法的关键思想,主要有一下优势: TD 像 MC 一样不需要环境模型,可以直接从经验中学习;而 DP 需要环境模型。 TD 像 DP 一样可以自举,而 MC 无法自举。 TD 可以在线增量地更新,DP 和 MC 都无法做到这一点。 TD 可以渐进地收敛到正确的预测值,而且通常收敛得比 MC 快。

[RL Note] 时序差分学习——一个例子

1. 问题   使用《强化学习》(第二版)例 6.1 中开车回家的例子,在下班开车回家的路途中,不断地记录路上消耗的时间和估计到家的时间: 18:00 – 离开办公室的时间记为时刻 $0$,估计 $30$ 分钟后到家。 18:05 – $5$ 分钟后到达车旁,发现开始下雨,估计路上会花更多时间,于是估计还要花 $35$ 分钟到家(算上已经花费的 $5$ 分钟,估计到家花费的…
Read more