Daily Archive: 2019-10-20

[RL Note] 动态规划的效率

1. 对比蒙特卡洛方法   前文中介绍的迭代策略评估是一种动态规划的方法。在另一种基于样本的策略评估方法中,将计算每一个状态的价值看做是一个完全独立的估计问题,根据策略 $\pi$ 的状态价值函数 $v_\pi$ 的定义 \begin{equation} v_\pi \doteq \mathbb{E}[G_t | S_t = s] \tag{1} \end{equation} 为了估计某个状态 $…
Read more

[RL Note] 广义策略迭代

1. 广义策略迭代   策略迭代包含策略评估和策略改进两个不断交替进行、相互作用的步骤,前文给出的策略迭代方法只在一个步骤完成后才开始下一个步骤,但这并不是必须的。使用广义策略迭代指代各种组织策略评估和策略改进相互作用的一般方法。 2. 价值迭代   注意到一次策略评估本身就是一个迭代的过程,如使用前文中的迭代策略评估算法,这是一个非常耗时的计算。有多种方式可以提前截断策略迭代中的策略评估步骤,而…
Read more

[RL Note] 策略改进

  通过迭代策略评估得到给定策略下的价值函数后,就可以据此对策略进行改进,以得到更好的策略。   假设已知某个策略 $\pi$ 的价值函数 $v_\pi$,我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$,是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$;考虑在状态 $s$ 选择动作 $a$,…
Read more