[RL Notes] 重要度采样和离轨蒙特卡洛预测
1. 基于重要度采样的离轨策略 蒙特卡洛预测算法通过计算回报的平均值来估计状态价值,即 \begin{equation} v_\pi(s) \doteq \mathbb{E}_\pi[G_t|S_t = s] = \mathrm{average}(Returns(s)) \tag{1} \end{equation} 而在离轨策略中,样本是通过行动策略获得的,此时计算回报的平均值估计的是行动策略…
Read more
learn, build, evaluate
1. 基于重要度采样的离轨策略 蒙特卡洛预测算法通过计算回报的平均值来估计状态价值,即 \begin{equation} v_\pi(s) \doteq \mathbb{E}_\pi[G_t|S_t = s] = \mathrm{average}(Returns(s)) \tag{1} \end{equation} 而在离轨策略中,样本是通过行动策略获得的,此时计算回报的平均值估计的是行动策略…
Read more
1. 同轨策略和离轨策略 通过确保智能体不断地选择所有可能的动作,可以让智能体不断地进行试探,有两种方法可以达到这一点。 同轨策略(on-policy)方法使用相同的策略生成采样数据序列以及用于实际决策的待评估和改进的策略。前文中的蒙特卡洛试探性出发算法和 $\varepsilon$-软策略都属于同轨策略。$\varepsilon$-软策略不要求满足试探性出发的假设,但它在获得收益和在试探…
Read more
在真实环境中,并不是总能满足试探性出发的假设,例如在某些任务中的状态和动作太多,或者实验的成本很大,无法确保智能体能够以所有可能的“状态-动作”二元组作为起始状态。 $\varepsilon$-贪心方法是一种 $\varepsilon$-贪心策略,即在绝大多数情况下选择获得最大动作价值估计的动作,同时而以一个较小的概率 $\varepsilon$ 随机选择一个动作。所有…
Read more
1. 动作价值的蒙特卡洛估计 在动作价值函数的策略评估问题中,要估计策略 $\pi$ 下从状态 $s$ 选择动作 $a$ 的期望回报,即 \begin{equation} q_\pi(s, a) \doteq \mathbb{E}_\pi [G_t | S_t = s, A_t = a] \tag{1} \end{equation} 通过动作价值函数可以比较同一状态下采取不同行动的差异,这对于…
Read more
1. 蒙特卡洛方法 使用动态规划来估计价值函数并寻找最优策略的效率虽然很高,但要事先知道 MDP 的动态特性 $p(s’,r|s,a)$,而在很多实际问题中,我们并不具有关于环境状态变化的先验知识,此时就需要能够仅从经验中学习,即从真实或模拟的环境交互中采样得到状态、动作、收益序列,并对价值进行估计。 蒙特卡洛(Monte Carlo)方法指的是一系列从重复采样中进行估计的方法…
Read more
1. 对比蒙特卡洛方法 在进行策略评估时,除了使用迭代策略评估这种动态规划的方法外,还可以使用基于样本的策略评估方法,将计算每一个状态的价值看做是一个完全独立的估计问题。根据策略 $\pi$ 的状态价值函数 $v_\pi$ 的定义 \begin{equation} v_\pi \doteq \mathbb{E}[G_t | S_t = s] \tag{1} \end{equation} 为了估…
Read more
1. 广义策略迭代 策略迭代包含策略评估和策略改进两个不断交替进行、相互作用的步骤,一种方法是在一个步骤完成后才开始下一个步骤,但这并不是必须的。各种组织策略评估和策略改进相互作用的一般方法统称为广义策略迭代。 2. 价值迭代 一次策略评估本身就是一个迭代的过程,如使用前文中的迭代策略评估算法,这是一个非常耗时的计算,有多种方式可以提前截断策略迭代中的策略评估步骤,而不影响策略迭代的收敛。…
Read more
由策略改进定理,对于给定策略 $\pi$,在每一个状态都根据价值函数 $v_\pi$ 贪心的选择动作,就可以得到一个更优的策略 $\pi’$ \begin{align} \pi'(s) \doteq \underset{a}{\arg\max} \; \sum_{s’, r} p(s’, r | s, a) \big[ r + \gamm…
Read more
通过迭代策略评估得到给定策略下的价值函数后,就可以据此对策略进行改进,以得到更好的策略。 假设已知某个策略 $\pi$ 的价值函数 $v_\pi$,我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$,是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$;考虑在状态 $s$…
Read more
动态规划(Dynamic Programming,DP)是一类优化方法,它可以在给定用 MDP 描述的完备环境模型的情况下,使用贝尔曼方程进行策略评估和控制。 贝尔曼方程给出了 $v_\pi(s)$ 的一个递归表达式 \begin{align} v_\pi(s) = \sum_a \pi(a|s) \sum_{s’} \sum_{r} p(s’,…
Read more