Tag Archive: Policy Improvement

[RL Notes] 策略改进

Author: nex3z 2019-10-20

通过迭代策略评估得到给定策略下的价值函数后，就可以据此对策略进行改进，以得到更好的策略。　　假设已知某个策略 $\pi$ 的价值函数 $v_\pi$，我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$，是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$；考虑在状态 $s$…
Read more

Reinforcement Learning

Policy Improvement

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31