Daily Archive: 2019-10-12

[RL Notes] 动作价值估计的增量更新

Author: nex3z 2019-10-12

1. 增量计算平均值　　前文给出的估计动作价值的方法，需要保存所有历史数据，即历史上观测到的所有动作收益。这一计算实际上可以通过增量计算的方式更有效地进行。　　考虑一个特定动作 $a$，记 $R_i$ 为这一动作被选择 $i$ 次后获得的收益，$Q_n$ 表示选择该动作 $n-1$ 次后对动作价值的估计，则 \begin{equation} Q_n \doteq \frac{R_1 + R_2…
Read more

Reinforcement Learning

Action Value

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31