[RL Notes] 时序差分学习的优势
时序差分(TD)学习结合了动态规划(DP)和蒙特卡洛(MC)方法的关键思想,主要有以下优势:
- TD 像 MC 一样不需要环境模型,可以直接从经验中学习;而 DP 需要环境模型。
- TD 像 DP 一样可以自举,而 MC 无法自举。
- TD 可以在线增量地更新,DP 和 MC 都无法做到这一点。
- TD 可以渐进地收敛到正确的预测值,而且通常收敛得比 MC 快。
learn, build, evaluate
时序差分(TD)学习结合了动态规划(DP)和蒙特卡洛(MC)方法的关键思想,主要有以下优势: