[RL Note] 最优策略

1. 最优策略   强化学习的任务是找出一个最优策略,使其能在长期过程中获得最大收益。可以通过价值函数来比较策略的优劣,对于策略 $\pi$ 和 $\pi’$,若策略 $\pi$ 在所有状态上的期望回报都大于等于策略 $\pi’$ 的期望回报,则称策略 $\pi$ 与策略 $\pi’$ 差不多或更好。$\pi \geq \pi’$ 当且仅当 $v_\…
Read more

[RL Note] 策略和价值函数

1. 策略   在 MDP 的每个时刻,智能体要在当前状态下选择要执行的动作,智能体根据状态选择动作的方式称为策略。更严格地,策略(policy)是从状态到选择每个动作的概率之间的映射。   从一个状态映射到一个动作的策略称为确定性策略(deterministic policy)记做 \begin{equation} \pi(s) = a \tag{1} \end{equation} 其中 $\p…
Read more

[RL Note] 强化学习的目标

1. 强化学习的目标   在强化学习中,智能体的目标是最大化其收到的总收益,或者更具体地,最大化智能体收到的标量信号(收益)累计和的概率期望值。总收益是长期积累得到的,最大化总收益并不意味着最大化当前收益。 2. 分幕式任务   在时刻 $t$,智能体要选择动作,以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$,我们希望…
Read more

[RL Note] 马尔可夫决策过程

1. 马尔可夫决策过程   前文中的$k$ 臂赌博机问题具有一些局限性:每次选择动作时的环境都是相同的,最优的动作保持不变,而且历史上作出的选择并不会影响到当前选择的动作的收益。在实际问题中,面对不同环境往往需要作出不同的选择,当下选择的动作会带来更长远的影响——影响未来环境(状态)和收益。   马尔可夫决策过程(Markov decision processe,MDP)给出了序列决策问题的一个更…
Read more

[RL Note] 基于置信度上界的动作选择

  由于我们使用收益的样本来估计动作的价值,因此在估计中存在不确定性。通过试探可以降低估计的不确定性,从而在未来做出更好的选择。前文提到的 $\varepsilon$ – 贪心算法以一定概率进行探索,即随机地选择动作,这是一种盲目的选择。一种更好的试探的方法是,选择最有潜力的非贪心动作。衡量一个动作有多大“潜力”,需要考量这个动作的估计有多接近最大值,以及估计的不确定性(置信区间)。 …
Read more

[RL Note] 乐观初始值

1. 乐观初始值   在前文提到的学习算法中,如果一个动作 $a$ 从未被选择过,我们就无法根据历史数据去估计该动作的价值 $Q_t(a)$,此时需要为动作价值的估计设置一个初始值 $Q_1(a)$。这使得每个动作价值估计的初始值变成了一个需要配置的参数,通过选择合适的初始值,可以对试探和开发进行平衡。   使用乐观的初始值有利于试探。如果动作价值估计的初始值大于动作的真实价值,则在学习的初期,选…
Read more

[RL Note] 试探和开发

1. 开发和试探的冲突   通过估计各个动作的价值,在每一时刻都至少有一个动作具有最大的估计价值。选择具有最大估计价值的动作,即贪心动作,是开发(Exploitation)利用了历史上关于动作价值的知识,选择了距今为止表现最好的动作,以期最大化收益。   如果没有选择贪心动作,则称进行了试探(Expolration),通过尝试非贪心动作并记录其收益,可以改善对非贪心动作的价值的估计。试探没有选择当…
Read more

[RL Note] 动作价值估计的增量更新

1. 增量计算平均值   前文给出的估计动作价值的方法,需要保存所有历史数据,即历史上观测到的动作收益。这一计算实际上可以通过增量地方式更有效地进行。   考虑一个特定动作 $a$,记 $R_i$ 为这一动作被选择 $i$ 次后获得的收益,$Q_n$ 表示选择该动作 $n-1$ 次后对动作价值的估计,则 \begin{equation} Q_n \doteq \frac{R_1 + R_2 + \…
Read more

[RL Note] K 臂赌博机

1. 问题描述   $k$ 臂赌博机问题指的是在一个具有 $k$ 个拉杆的老虎机上进行赌博,每次赌博可以选择拉动一个拉杆,然后会得到一定的奖金收益。每个拉杆所带来的收益分布可能是不同的。通过重复地赌博,玩家可以学会只拉动带来收益最高的拉杆,从而最大化收益。   更一般的,$k$ 臂赌博机问题指的是重复地在 $k$ 个动作中进行选择,每次动作后会得到一定的收益,收益由所选动作决定的平稳概率分布产生。…
Read more