[RL Notes] 策略迭代
由策略改进定理,对于给定策略 $\pi$,在每一个状态都根据价值函数 $v_\pi$ 贪心的选择动作,就可以得到一个更优的策略 $\pi’$ \begin{align} \pi'(s) \doteq \underset{a}{\arg\max} \; \sum_{s’, r} p(s’, r | s, a) \big[ r + \gamm…
Read more
learn, build, evaluate
由策略改进定理,对于给定策略 $\pi$,在每一个状态都根据价值函数 $v_\pi$ 贪心的选择动作,就可以得到一个更优的策略 $\pi’$ \begin{align} \pi'(s) \doteq \underset{a}{\arg\max} \; \sum_{s’, r} p(s’, r | s, a) \big[ r + \gamm…
Read more
通过迭代策略评估得到给定策略下的价值函数后,就可以据此对策略进行改进,以得到更好的策略。 假设已知某个策略 $\pi$ 的价值函数 $v_\pi$,我们希望知道如果在某个状态 $s$ 上选择一个不同于策略 $\pi$ 的动作 $a \neq \pi(s)$,是否会带来改善。已知在状态 $s$ 上继续遵守策略 $\pi$ 的价值为 $v_\pi(s)$;考虑在状态 $s$…
Read more
动态规划(Dynamic Programming,DP)是一类优化方法,它可以在给定用 MDP 描述的完备环境模型的情况下,使用贝尔曼方程进行策略评估和控制。 贝尔曼方程给出了 $v_\pi(s)$ 的一个递归表达式 \begin{align} v_\pi(s) = \sum_a \pi(a|s) \sum_{s’} \sum_{r} p(s’,…
Read more
强化学习的过程中通常会涉及两类任务:策略评估(policy evaluation)和控制(control)。策略评估指的是计算特定策略的价值函数,也称为预测问题;控制指的是找到能够最大化收益的策略。虽然控制是强化学习的最终目标,但策略评估往往是第一步——要改善策略,首先要能够比较策略的好坏。 1. 策略评估 在策略评估中,要计算给定策略 $\pi$ 的状态价值函数 \b…
Read more
得到了最优价值函数之后,可以进一步得到最优策略。 1. 已知最优状态价值函数 只要我们知道了最优价值函数 $v_*$ 和 MDP 的动态特性 $p(s’, r | s, a)$,就可以很容易地得到最优策略。由贝尔曼最优方程 \begin{equation} v_*(s) = \max_{a} \sum_{s’} \sum_{r} …
Read more
1. 最优价值函数 由最优策略的定义可知,最优策略共享相同的最优状态价值函数,定义为对于任意 $s \in \mathcal S$, \begin{equation} v_*(s) \doteq \max_\pi v_\pi(s) \tag{1} \end{equation} 类似地,最优的策略也共享相同的最优动作价值函数,记为 $q_*$,定义为对于任意 $s \in \math…
Read more
1. 最优策略 强化学习的任务是找出一个最优策略,使其能在长期过程中获得最大收益。可以通过价值函数来比较策略的优劣,对于策略 $\pi$ 和 $\pi’$,若策略 $\pi$ 在所有状态上的期望回报都大于等于策略 $\pi’$ 的期望回报,则称策略 $\pi$ 与策略 $\pi’$ 差不多或更好。$\pi \geq \pi’$ 当且仅当 $v_\…
Read more
1. 状态价值的贝尔曼方程 考虑状态价值函数 \begin{equation} v_\pi(s) \doteq \mathbb{E}_\pi[G_t|S_t = s] \tag{1} \end{equation} 其中 $G_t$ 是 $t$ 时刻后的回报,对于持续性任务,使用折后回报,即 \begin{equation} G_t \doteq R_{t+1} + \gamma…
Read more
1. 策略 在 MDP 的每个时刻,智能体要在当前状态下选择要执行的动作,智能体根据状态选择动作的方式称为策略。更严格地,策略(policy)是从状态到选择每个动作的概率之间的映射。 从一个状态映射到一个动作的策略称为确定性策略(deterministic policy)记做 \begin{equation} \pi(s) = a \tag{1} \end{equation} 其中 $\p…
Read more
1. 强化学习的目标 在强化学习中,智能体的目标是最大化其收到的总收益,或者更具体地,最大化智能体收到的标量信号(收益)累计和的概率期望值。总收益是长期积累得到的,最大化总收益并不意味着最大化当前收益。 2. 分幕式任务 在时刻 $t$,智能体要选择动作,以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$,我们希望…
Read more