Tag Archive: Optimal Policy

[RL Notes] 通过最优价值函数获得最优策略

Author: nex3z 2019-10-19

得到了最优价值函数之后，可以进一步得到最优策略。 1. 已知最优状态价值函数　　只要我们知道了最优价值函数 $v_*$ 和 MDP 的动态特性 $p(s’, r | s, a)$，就可以很容易地得到最优策略。由贝尔曼最优方程 \begin{equation} v_*(s) = \max_{a} \sum_{s’} \sum_{r} …
Read more

Reinforcement Learning

Optimal Policy

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31