Daily Archive: 2019-10-22

[RL Note] 蒙特卡洛方法和蒙特卡洛预测

1. 蒙特卡洛方法   使用动态规划来估计价值函数和寻找最优策略虽然效率很高,但是要求知道 MDP 的动态特性 $p(s’,r|s,a)$。而在很多实际问题中,我们并不具有关于环境状态变化的先验知识,此时就需要能够仅从经验中学习,即从真实或模拟的环境交互中采样得到状态、动作、收益序列,并对价值进行估计。   蒙特卡洛(Monte Carlo)方法指的是一系列从重复采样中进行估计的方法。…
Read more