[RL Note] 蒙特卡洛方法

1. 蒙特卡洛方法   使用动态规划来估计价值函数和寻找最优策略虽然效率很高,但是要求知道 MDP 的动态特性 $p(s’,r|s,a)$。而在很多实际问题中,我们并不具有关于环境状态变化的先验知识,此时就需要能够仅从经验中学习,即从真实或模拟的环境交互中采样得到状态、动作、收益序列,并对价值进行估计。   蒙特卡洛(Monte Carlo)方法指的是一系列从重复采样中进行估计的方法。…
Read more

[RL Note] 动态规划的效率

1. 对比蒙特卡洛方法   前文中介绍的迭代策略评估是一种动态规划的方法。在另一种基于样本的策略评估方法中,将计算每一个状态的价值看做是一个完全独立的估计问题,根据策略 $\pi$ 的状态价值函数 $v_\pi$ 的定义 \begin{equation} v_\pi \doteq \mathbb{E}[G_t | S_t = s] \tag{1} \end{equation} 为了估计某个状态 $…
Read more

[RL Note] 广义策略迭代

1. 广义策略迭代   策略迭代包含策略评估和策略改进两个不断交替进行、相互作用的步骤,前文给出的策略迭代方法只在一个步骤完成后才开始下一个步骤,但这并不是必须的。使用广义策略迭代指代各种组织策略评估和策略改进相互作用的一般方法。 2. 价值迭代   注意到一次策略评估本身就是一个迭代的过程,如使用前文中的迭代策略评估算法,这是一个非常耗时的计算。有多种方式可以提前截断策略迭代中的策略评估步骤,而…
Read more

[RL Note] 策略改进

  通过迭代策略评估得到给定策略下的价值函数后,就可以据此对策略进行改进,以得到更好的策略。   假设已知某个策略 $\pi$ 的价值函数 $v_\pi$,我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$,是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$;考虑在状态 $s$ 选择动作 $a$,…
Read more

[RL Note] 策略评估和控制

  强化学习的过程中通常会涉及两类任务:策略评估(policy evaluation)和控制(control)。策略评估指的是计算特定策略的价值函数,控制指的是找到能够最大化收益的策略。虽然控制是强化学习的最终目标,但策略评估往往是第一步——要改善策略,首先要能够比较策略的好坏。 1. 策略评估   在策略评估中,要计算给定策略 $\pi$ 的状态价值函数 $v_\pi$,策略和价值函数文中给出了…
Read more

[RL Note] 通过最优价值函数获得最优策略

  在前文中已经得到了最优价值函数,而强化学习的目标是获得最优策略。 1. 已知最优状态价值函数   只要我们知道了最优价值函数 $v_*$ 和 MDP 的动态特性 $p(s’, r | s, a)$,就可以很容易地得到最优策略。回顾前文中的贝尔曼最优方程 \begin{equation} v_*(s) = \max_{a} \sum_{s’} \sum_{…
Read more