Author Archive: nex3z

[RL Note] 时序差分学习——一个例子

1. 问题   使用《强化学习》(第二版)例 6.1 中开车回家的例子,在下班开车回家的路途中,不断地记录路上消耗的时间和估计到家的时间: 18:00 – 离开办公室的时间记为时刻 $0$,估计 $30$ 分钟后到家。 18:05 – $5$ 分钟后到达车旁,发现开始下雨,估计路上会花更多时间,于是估计还要花 $35$ 分钟到家(算上已经花费的 $5$ 分钟,估计到家花费的…
Read more

[RL Note] 重要度采样和离轨蒙特卡洛预测

1. 基于重要度采样的离轨策略   前文中的蒙特卡洛预测算法通过计算回报的平均值来估计状态价值,即 \begin{equation} v_\pi(s) \doteq \mathbb{E}_\pi[G_t|S_t = s] = \mathrm{average}(Returns(s)) \tag{1} \end{equation} 而在离轨策略中,样本是通过行动策略获得的,此时计算回报的平均值估计的是…
Read more

[RL Note] 离轨策略

1. 同轨策略和离轨策略   通过确保智能体不断地选择所有可能的动作,可以让智能体不断地进行试探,有两种方法可以达到这一点。   同轨策略(on-policy)方法使用相同的策略生成采样数据序列以及用于实际决策的待评估和改进的策略。前文中的蒙特卡洛试探性出发算法和 $\varepsilon$-软策略都属于同轨策略。$\varepsilon$-软策略不要求满足试探性出发的假设,但它在获得收益和在试探…
Read more

[RL Note] epsilson 软性策略

  在动作价值的蒙特卡洛估计中提到,真实环境中并不是总能满足试探性出发的假设,某些任务中的状态和动作太多,或者实验的成本很大,无法确保智能体能够以所有可能的“状态-动作”二元组作为起始状态。   前面提到的 $\varepsilon$-贪心方法是一种 $\varepsilon$-贪心策略,即在绝大多数情况下选择获得最大动作价值估计的动作,同时而以一个较小的概率 $\varepsilon$ 随机选择…
Read more

[RL Note] 蒙特卡洛方法和蒙特卡洛预测

1. 蒙特卡洛方法   使用动态规划来估计价值函数和寻找最优策略虽然效率很高,但是要求知道 MDP 的动态特性 $p(s’,r|s,a)$。而在很多实际问题中,我们并不具有关于环境状态变化的先验知识,此时就需要能够仅从经验中学习,即从真实或模拟的环境交互中采样得到状态、动作、收益序列,并对价值进行估计。   蒙特卡洛(Monte Carlo)方法指的是一系列从重复采样中进行估计的方法。…
Read more

[RL Note] 动态规划的效率

1. 对比蒙特卡洛方法   前文中介绍的迭代策略评估是一种动态规划的方法。在另一种基于样本的策略评估方法中,将计算每一个状态的价值看做是一个完全独立的估计问题,根据策略 $\pi$ 的状态价值函数 $v_\pi$ 的定义 \begin{equation} v_\pi \doteq \mathbb{E}[G_t | S_t = s] \tag{1} \end{equation} 为了估计某个状态 $…
Read more