[RL Notes] 分幕式 Sarsa 的函数逼近
1. 函数逼近中的动作价值 线性方法近似的价值函数为权重向量和特征向量的内积 \begin{equation} v_\pi(s) \approx \hat{v}(s, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}} \tag{1} \end{equation} …
Read more
learn, build, evaluate
1. 函数逼近中的动作价值 线性方法近似的价值函数为权重向量和特征向量的内积 \begin{equation} v_\pi(s) \approx \hat{v}(s, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}} \tag{1} \end{equation} …
Read more
1. 预测算法 通过 TD(0) 算法可以得到状态价值函数,而为了在广义策略迭代中使用时序差分方法,我们需要的是动作价值函数。 不同于 TD(0) 算法中只考虑状态之间的转换,现在要考虑“状态-动作”二元组之间的转换,并学习每个“状态-动作”二元组的价值。类似 TD(0) 对状态价值的更新,对“状态-动作”二元组价值的更新如下所示。 \begin{equation} Q(S_t, A_t)…
Read more