[RL Notes] 时序差分学习的优势

  时序差分(TD)学习结合了动态规划(DP)和蒙特卡洛(MC)方法的关键思想,主要有以下优势:

  • TD 像 MC 一样不需要环境模型,可以直接从经验中学习;而 DP 需要环境模型。
  • TD 像 DP 一样可以自举,而 MC 无法自举。
  • TD 可以在线增量地更新,DP 和 MC 都无法做到这一点。
  • TD 可以渐进地收敛到正确的预测值,而且通常收敛得比 MC 快。