[RL Notes] 通过最优价值函数获得最优策略
得到了最优价值函数之后,可以进一步得到最优策略。 1. 已知最优状态价值函数 只要我们知道了最优价值函数 $v_*$ 和 MDP 的动态特性 $p(s’, r | s, a)$,就可以很容易地得到最优策略。由贝尔曼最优方程 \begin{equation} v_*(s) = \max_{a} \sum_{s’} \sum_{r} …
Read more
learn, build, evaluate
得到了最优价值函数之后,可以进一步得到最优策略。 1. 已知最优状态价值函数 只要我们知道了最优价值函数 $v_*$ 和 MDP 的动态特性 $p(s’, r | s, a)$,就可以很容易地得到最优策略。由贝尔曼最优方程 \begin{equation} v_*(s) = \max_{a} \sum_{s’} \sum_{r} …
Read more