[RL Notes] 迭代策略评估
动态规划(Dynamic Programming,DP)是一类优化方法,它可以在给定用 MDP 描述的完备环境模型的情况下,使用贝尔曼方程进行策略评估和控制。 贝尔曼方程给出了 $v_\pi(s)$ 的一个递归表达式 \begin{align} v_\pi(s) = \sum_a \pi(a|s) \sum_{s’} \sum_{r} p(s’,…
Read more
learn, build, evaluate
动态规划(Dynamic Programming,DP)是一类优化方法,它可以在给定用 MDP 描述的完备环境模型的情况下,使用贝尔曼方程进行策略评估和控制。 贝尔曼方程给出了 $v_\pi(s)$ 的一个递归表达式 \begin{align} v_\pi(s) = \sum_a \pi(a|s) \sum_{s’} \sum_{r} p(s’,…
Read more
强化学习的过程中通常会涉及两类任务:策略评估(policy evaluation)和控制(control)。策略评估指的是计算特定策略的价值函数,也称为预测问题;控制指的是找到能够最大化收益的策略。虽然控制是强化学习的最终目标,但策略评估往往是第一步——要改善策略,首先要能够比较策略的好坏。 1. 策略评估 在策略评估中,要计算给定策略 $\pi$ 的状态价值函数 \b…
Read more
得到了最优价值函数之后,可以进一步得到最优策略。 1. 已知最优状态价值函数 只要我们知道了最优价值函数 $v_*$ 和 MDP 的动态特性 $p(s’, r | s, a)$,就可以很容易地得到最优策略。由贝尔曼最优方程 \begin{equation} v_*(s) = \max_{a} \sum_{s’} \sum_{r} …
Read more