[RL Note] 广义策略迭代

1. 广义策略迭代   策略迭代包含策略评估和策略改进两个不断交替进行、相互作用的步骤,前文给出的策略迭代方法只在一个步骤完成后才开始下一个步骤,但这并不是必须的。使用广义策略迭代指代各种组织策略评估和策略改进相互作用的一般方法。 2. 价值迭代   注意到一次策略评估本身就是一个迭代的过程,如使用前文中的迭代策略评估算法,这是一个非常耗时的计算。有多种方式可以提前截断策略迭代中的策略评估步骤,而…
Read more

[RL Note] 策略改进

  通过迭代策略评估得到给定策略下的价值函数后,就可以据此对策略进行改进,以得到更好的策略。   假设已知某个策略 $\pi$ 的价值函数 $v_\pi$,我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$,是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$;考虑在状态 $s$ 选择动作 $a$,…
Read more

[RL Note] 策略评估和控制

  强化学习的过程中通常会涉及两类任务:策略评估(policy evaluation)和控制(control)。策略评估指的是计算特定策略的价值函数,控制指的是找到能够最大化收益的策略。虽然控制是强化学习的最终目标,但策略评估往往是第一步——要改善策略,首先要能够比较策略的好坏。 1. 策略评估   在策略评估中,要计算给定策略 $\pi$ 的状态价值函数 $v_\pi$,策略和价值函数文中给出了…
Read more

[RL Note] 最优策略

1. 最优策略   强化学习的任务是找出一个最优策略,使其能在长期过程中获得最大收益。可以通过价值函数来比较策略的优劣,对于策略 $\pi$ 和 $\pi’$,若策略 $\pi$ 在所有状态上的期望回报都大于等于策略 $\pi’$ 的期望回报,则称策略 $\pi$ 与策略 $\pi’$ 差不多或更好。$\pi \geq \pi’$ 当且仅当 $v_\…
Read more

[RL Note] 策略和价值函数

1. 策略   在 MDP 的每个时刻,智能体要在当前状态下选择要执行的动作,智能体根据状态选择动作的方式称为策略。更严格地,策略(policy)是从状态到选择每个动作的概率之间的映射。   从一个状态映射到一个动作的策略称为确定性策略(deterministic policy)记做 \begin{equation} \pi(s) = a \tag{1} \end{equation} 其中 $\p…
Read more