[RL Notes] 动态规划的效率
1. 对比蒙特卡洛方法 在进行策略评估时,除了使用迭代策略评估这种动态规划的方法外,还可以使用基于样本的策略评估方法,将计算每一个状态的价值看做是一个完全独立的估计问题。根据策略 $\pi$ 的状态价值函数 $v_\pi$ 的定义 \begin{equation} v_\pi \doteq \mathbb{E}[G_t | S_t = s] \tag{1} \end{equation} 为了估…
Read more
learn, build, evaluate
1. 对比蒙特卡洛方法 在进行策略评估时,除了使用迭代策略评估这种动态规划的方法外,还可以使用基于样本的策略评估方法,将计算每一个状态的价值看做是一个完全独立的估计问题。根据策略 $\pi$ 的状态价值函数 $v_\pi$ 的定义 \begin{equation} v_\pi \doteq \mathbb{E}[G_t | S_t = s] \tag{1} \end{equation} 为了估…
Read more
1. 广义策略迭代 策略迭代包含策略评估和策略改进两个不断交替进行、相互作用的步骤,一种方法是在一个步骤完成后才开始下一个步骤,但这并不是必须的。各种组织策略评估和策略改进相互作用的一般方法统称为广义策略迭代。 2. 价值迭代 一次策略评估本身就是一个迭代的过程,如使用前文中的迭代策略评估算法,这是一个非常耗时的计算,有多种方式可以提前截断策略迭代中的策略评估步骤,而不影响策略迭代的收敛。…
Read more
由策略改进定理,对于给定策略 $\pi$,在每一个状态都根据价值函数 $v_\pi$ 贪心的选择动作,就可以得到一个更优的策略 $\pi’$ \begin{align} \pi'(s) \doteq \underset{a}{\arg\max} \; \sum_{s’, r} p(s’, r | s, a) \big[ r + \gamm…
Read more
通过迭代策略评估得到给定策略下的价值函数后,就可以据此对策略进行改进,以得到更好的策略。 假设已知某个策略 $\pi$ 的价值函数 $v_\pi$,我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$,是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$;考虑在状态 $s$…
Read more