[RL Notes] 迭代策略评估
动态规划(Dynamic Programming,DP)是一类优化方法,它可以在给定用 MDP 描述的完备环境模型的情况下,使用贝尔曼方程进行策略评估和控制。 贝尔曼方程给出了 $v_\pi(s)$ 的一个递归表达式 \begin{align} v_\pi(s) = \sum_a \pi(a|s) \sum_{s’} \sum_{r} p(s’,…
Read more
learn, build, evaluate
动态规划(Dynamic Programming,DP)是一类优化方法,它可以在给定用 MDP 描述的完备环境模型的情况下,使用贝尔曼方程进行策略评估和控制。 贝尔曼方程给出了 $v_\pi(s)$ 的一个递归表达式 \begin{align} v_\pi(s) = \sum_a \pi(a|s) \sum_{s’} \sum_{r} p(s’,…
Read more