[RL Notes] 策略改进
通过迭代策略评估得到给定策略下的价值函数后,就可以据此对策略进行改进,以得到更好的策略。 假设已知某个策略 $\pi$ 的价值函数 $v_\pi$,我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$,是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$;考虑在状态 $s$…
Read more
learn, build, evaluate
通过迭代策略评估得到给定策略下的价值函数后,就可以据此对策略进行改进,以得到更好的策略。 假设已知某个策略 $\pi$ 的价值函数 $v_\pi$,我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$,是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$;考虑在状态 $s$…
Read more