Tag Archive: Policy Iteration

[RL Notes] 策略迭代

Author: nex3z 2019-10-20

由策略改进定理，对于给定策略 $\pi$，在每一个状态都根据价值函数 $v_\pi$ 贪心的选择动作，就可以得到一个更优的策略 $\pi’$ \begin{align} \pi'(s) \doteq \underset{a}{\arg\max} \; \sum_{s’, r} p(s’, r | s, a) \big[ r + \gamm…
Read more

Reinforcement Learning

Policy Iteration

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31