[RL Notes] 策略迭代
由策略改进定理,对于给定策略 $\pi$,在每一个状态都根据价值函数 $v_\pi$ 贪心的选择动作,就可以得到一个更优的策略 $\pi’$ \begin{align} \pi'(s) \doteq \underset{a}{\arg\max} \; \sum_{s’, r} p(s’, r | s, a) \big[ r + \gamm…
Read more
learn, build, evaluate
由策略改进定理,对于给定策略 $\pi$,在每一个状态都根据价值函数 $v_\pi$ 贪心的选择动作,就可以得到一个更优的策略 $\pi’$ \begin{align} \pi'(s) \doteq \underset{a}{\arg\max} \; \sum_{s’, r} p(s’, r | s, a) \big[ r + \gamm…
Read more