Tag Archive: Iterative Policy Evaluation

[RL Notes] 迭代策略评估

Author: nex3z 2019-10-19

动态规划（Dynamic Programming，DP）是一类优化方法，它可以在给定用 MDP 描述的完备环境模型的情况下，使用贝尔曼方程进行策略评估和控制。　　贝尔曼方程给出了 $v_\pi(s)$ 的一个递归表达式 \begin{align} v_\pi(s) = \sum_a \pi(a|s) \sum_{s’} \sum_{r} p(s’,…
Read more

Reinforcement Learning

Iterative Policy Evaluation

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31