Tag Archive: Model

[RL Notes] 模型和规划

1. 模型   像时序差分这类基于采样的方法可以从经验中学习,而动态规划算法需要知道环境的运作方式,即环境模型。环境的模型指的是一个智能体可以用来预测环境对其动作的反应的任何事物,例如 MDP 的动态特性 $p(s’,r|s, a)$。通过这样的环境模型,我们可只知道在给定状态下采取某个动作所带来的后果,而不必真的去执行这个动作。   如果模型是随机的,则会一定概率出现的多种后继状态和…
Read more