Daily Archive: 2019-10-12

[RL Note] 动作价值估计的增量更新

1. 增量计算平均值   前文给出的估计动作价值的方法,需要保存所有历史数据,即历史上观测到的动作收益。这一计算实际上可以通过增量地方式更有效地进行。   考虑一个特定动作 $a$,记 $R_i$ 为这一动作被选择 $i$ 次后获得的收益,$Q_n$ 表示选择该动作 $n-1$ 次后对动作价值的估计,则 \begin{equation} Q_n \doteq \frac{R_1 + R_2 + \…
Read more