[RL Notes] 试探和开发
1. 开发和试探的冲突 通过估计各个动作的价值,在每一时刻都至少有一个动作具有最大的估计价值。选择具有最大估计价值的动作,即贪心动作,是开发(Exploitation)利用了历史上关于动作价值的知识,通过选择距今为止表现最好的动作,以期最大化收益。 如果没有选择贪心动作,则称进行了试探(Expolration),通过尝试非贪心动作并记录其收益,可以改善对非贪心动作的价值的估计。试探没有选择…
Read more
learn, build, evaluate
1. 开发和试探的冲突 通过估计各个动作的价值,在每一时刻都至少有一个动作具有最大的估计价值。选择具有最大估计价值的动作,即贪心动作,是开发(Exploitation)利用了历史上关于动作价值的知识,通过选择距今为止表现最好的动作,以期最大化收益。 如果没有选择贪心动作,则称进行了试探(Expolration),通过尝试非贪心动作并记录其收益,可以改善对非贪心动作的价值的估计。试探没有选择…
Read more
1. 增量计算平均值 前文给出的估计动作价值的方法,需要保存所有历史数据,即历史上观测到的所有动作收益。这一计算实际上可以通过增量计算的方式更有效地进行。 考虑一个特定动作 $a$,记 $R_i$ 为这一动作被选择 $i$ 次后获得的收益,$Q_n$ 表示选择该动作 $n-1$ 次后对动作价值的估计,则 \begin{equation} Q_n \doteq \frac{R_1 + R_2…
Read more
1. 问题描述 $k$ 臂赌博机问题指的是在一个具有 $k$ 个拉杆的老虎机上进行赌博,每次赌博可以选择拉动一个拉杆,然后会得到一定的奖金收益。每个拉杆所带来的收益分布可能是不同的。通过重复地赌博,玩家可以学会只拉动带来最高奖金的拉杆,从而最大化收益。 更一般的,$k$ 臂赌博机问题指的是重复地在 $k$ 个动作中进行选择,每次动作后会得到一定的收益,收益由所选动作决定的平稳概率分布产生,…
Read more