[RL Notes] 时序差分学习的优势

Author: nex3z 2019-10-27

Reinforcement Learning

DP, MC, Reinforcement Learning, TD

　　时序差分（TD）学习结合了动态规划（DP）和蒙特卡洛（MC）方法的关键思想，主要有以下优势：

TD 像 MC 一样不需要环境模型，可以直接从经验中学习；而 DP 需要环境模型。
TD 像 DP 一样可以自举，而 MC 无法自举。
TD 可以在线增量地更新，DP 和 MC 都无法做到这一点。
TD 可以渐进地收敛到正确的预测值，而且通常收敛得比 MC 快。