Tag Archive: Sarsa

[RL Notes] 分幕式 Sarsa 的函数逼近

Author: nex3z 2019-11-09

1. 函数逼近中的动作价值　　线性方法近似的价值函数为权重向量和特征向量的内积 \begin{equation} v_\pi(s) \approx \hat{v}(s, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}} \tag{1} \end{equation} …
Read more

Reinforcement Learning

Expected Sarsa, Function Approximation, Reinforcement Learning, Sarsa

[RL Notes] Sarsa：同轨策略下的时序差分控制

Author: nex3z 2019-10-27

1. 预测算法　　通过 TD(0) 算法可以得到状态价值函数，而为了在广义策略迭代中使用时序差分方法，我们需要的是动作价值函数。　　不同于 TD(0) 算法中只考虑状态之间的转换，现在要考虑“状态-动作”二元组之间的转换，并学习每个“状态-动作”二元组的价值。类似 TD(0) 对状态价值的更新，对“状态-动作”二元组价值的更新如下所示。 \begin{equation} Q(S_t, A_t)…
Read more

Reinforcement Learning

Control, Reinforcement Learning, Sarsa, TD

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31