[RL Notes] 分幕式 Sarsa 的函数逼近
1. 函数逼近中的动作价值 线性方法近似的价值函数为权重向量和特征向量的内积 \begin{equation} v_\pi(s) \approx \hat{v}(s, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}} \tag{1} \end{equation} …
Read more
learn, build, evaluate
1. 函数逼近中的动作价值 线性方法近似的价值函数为权重向量和特征向量的内积 \begin{equation} v_\pi(s) \approx \hat{v}(s, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}} \tag{1} \end{equation} …
Read more