[RL Notes] 同轨预测的目标
1. 均方价值误差 在使用监督学习的方法学习价值函数时,也可以使用误差平方的方式衡量学习的价值函数与真实价值函数在某个状态上的差异。通常情况下,一个状态的更新会影响许多其他状态,在一个状态上的估计价值较准确就意味着别的状态的估计价值变得不那么准确,此时就需要进行取舍:指定那些状态是我们最关心的,着重优化这些状态。由此得到均方价值误差 \begin{equation} \overline{\ma…
Read more
learn, build, evaluate
1. 均方价值误差 在使用监督学习的方法学习价值函数时,也可以使用误差平方的方式衡量学习的价值函数与真实价值函数在某个状态上的差异。通常情况下,一个状态的更新会影响许多其他状态,在一个状态上的估计价值较准确就意味着别的状态的估计价值变得不那么准确,此时就需要进行取舍:指定那些状态是我们最关心的,着重优化这些状态。由此得到均方价值误差 \begin{equation} \overline{\ma…
Read more