Monthly Archive: 十一月 2019

[RL Note] 同轨预测的目标

1. 均方价值误差   在使用监督学习的方法学习价值函数时,也可以使用误差平方的方式衡量学习的价值函数与真实价值函数在某个状态上的差异。通常情况下,一个状态的更新会影响许多其他状态,在一个状态上的估计价值较准确就意味着别的状态的估计价值变得不那么准确,此时就需要进行取舍:指定那些状态是我们最关心的,着重优化这些状态。由此得到均方价值误差 \begin{equation} \overline{\ma…
Read more

[RL Note] 使用监督学习估计价值函数

1. 参数化函数   之前介绍的学习算法都是基于表格的,问题涉及的状态和动作空间都很小,价值函数可以用表格保存下载。而实际场景中,往往涉及大量的状态和动作,难以用表格来保存价值函数。   除了用表格的方式,我们可以用任意实现状态到价值的映射的函数对价值函数进行估计,但如果仅仅是映射,每个状态对应一个固定的价值,就无法在学习过程中更新对价值进行更新。由此引入参数化的函数 \begin{equatio…
Read more

[RL Note] 不正确的模型

  规划依赖于模型生成模拟经验,如果模型不正确,规划就可能得到次优的策略。不正确的模型指的是模型中保存的状态转移与实际环境中的状态转移不符。如果在学习过程中环境发生了改变,而这些改变还没有被观察到,模型会给出错误的状态转移。在学习刚开始的时候,智能体只尝试过有限的动作,模型中还没有保存未选择过的动作的状态转移,此时称模型是不完整的。 1. 不完整的模型   对于模型不完整的问题,Dyna-Q 算法…
Read more