Tag Archive: Policy Improvement

[RL Notes] 策略改进

Author: nex3z 2019-10-20

通过迭代策略评估得到给定策略下的价值函数后，就可以据此对策略进行改进，以得到更好的策略。　　假设已知某个策略 $\pi$ 的价值函数 $v_\pi$，我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$，是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$；考虑在状态 $s$…
Read more

Reinforcement Learning

Policy Improvement

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31