[RL Note] Q 学习:离轨策略下的时序差分控制
1. Q 学习 Q 学习是一种离轨策略下时序差分控制算法,它的更新规则为 \begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \big[R_{t+1} + \gamma \max_{a}Q(S_{t+1}, a) – Q(S_t, A_t) \big] \tag{1} \end{equation} 式 $(1)$…
Read more
learn, build, evaluate
1. Q 学习 Q 学习是一种离轨策略下时序差分控制算法,它的更新规则为 \begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \big[R_{t+1} + \gamma \max_{a}Q(S_{t+1}, a) – Q(S_t, A_t) \big] \tag{1} \end{equation} 式 $(1)$…
Read more
1. 预测算法 通过 TD(0) 算法可以得到状态价值函数,而为了在广义策略迭代中使用时序差分方法,我们需要的是动作价值函数。 不同于 TD(0) 算法中只考虑状态之间的转换,现在要考虑“状态-动作”二元组之间的转换,并学习每个“状态-动作”二元组的价值。类似 TD(0) 对状态价值的更新,对“状态-动作”二元组价值的更新如下所示。 \begin{equation} Q(S_t, A_t)…
Read more
1. 时序差分学习的优势 时序差分(TD)学习结合了动态规划(DP)和蒙特卡洛(MC)方法的关键思想,主要有一下优势: TD 像 MC 一样不需要环境模型,可以直接从经验中学习;而 DP 需要环境模型。 TD 像 DP 一样可以自举,而 MC 无法自举。 TD 可以在线增量地更新,DP 和 MC 都无法做到这一点。 TD 可以渐进地收敛到正确的预测值,而且通常收敛得比 MC 快。
1. 问题 使用《强化学习》(第二版)例 6.1 中开车回家的例子,在下班开车回家的路途中,不断地记录路上消耗的时间和估计到家的时间: 18:00 – 离开办公室的时间记为时刻 $0$,估计 $30$ 分钟后到家。 18:05 – $5$ 分钟后到达车旁,发现开始下雨,估计路上会花更多时间,于是估计还要花 $35$ 分钟到家(算上已经花费的 $5$ 分钟,估计到家花费的…
Read more
在预测问题中,我们的目标是估计价值函数 \begin{equation} v_\pi(s) \doteq \mathbb{E}[G_t|S_t = s] \tag{1} \end{equation} 即从给定状态开始能获得的回报。在使用蒙特卡洛方法进行策略评估时,可以通过下式增量地对估计值进行更新 \begin{equation} V(S_t) \leftarrow V(S_t) + \alp…
Read more
结合加权重要度采样的增量实现,可以得到对应的离轨策略 MC 控制算法如下所示。 离轨策略 MC 控制算法,用于估计 $\pi \approx \pi_*$ 初始化:对所有 $s \in \mathcal{S}$,$a \in \mathcal{A(s)}$: $Q(s, a) \in \mathbb{R}$(任意值) $C(s, a) \leftarrow 0$ $\pi(…
Read more
1. 加权重要度采样 前文 MC 预测算法中使用的简单重要度采样定义为 \begin{equation} V(s) \cdot \frac{\sum\limits_{t \in \mathcal{T}(s)} \rho_{t:T(t)-1} G_t}{|\mathcal{T}(s)|} \tag{1} \end{equation} 其中 $\mathcal{T}(s)$ 为所有访问过状态 $s…
Read more
1. 基于重要度采样的离轨策略 前文中的蒙特卡洛预测算法通过计算回报的平均值来估计状态价值,即 \begin{equation} v_\pi(s) \doteq \mathbb{E}_\pi[G_t|S_t = s] = \mathrm{average}(Returns(s)) \tag{1} \end{equation} 而在离轨策略中,样本是通过行动策略获得的,此时计算回报的平均值估计的是…
Read more
1. 同轨策略和离轨策略 通过确保智能体不断地选择所有可能的动作,可以让智能体不断地进行试探,有两种方法可以达到这一点。 同轨策略(on-policy)方法使用相同的策略生成采样数据序列以及用于实际决策的待评估和改进的策略。前文中的蒙特卡洛试探性出发算法和 $\varepsilon$-软策略都属于同轨策略。$\varepsilon$-软策略不要求满足试探性出发的假设,但它在获得收益和在试探…
Read more
在动作价值的蒙特卡洛估计中提到,真实环境中并不是总能满足试探性出发的假设,某些任务中的状态和动作太多,或者实验的成本很大,无法确保智能体能够以所有可能的“状态-动作”二元组作为起始状态。 前面提到的 $\varepsilon$-贪心方法是一种 $\varepsilon$-贪心策略,即在绝大多数情况下选择获得最大动作价值估计的动作,同时而以一个较小的概率 $\varepsilon$ 随机选择…
Read more