[RL Notes] 使用监督学习估计价值函数
1. 参数化函数 之前介绍的学习算法都是基于表格的,问题涉及的状态和动作空间都很小,价值函数可以用表格保存下载。而实际场景中,往往涉及大量的状态和动作,难以用表格来保存价值函数。 除了用表格的方式,我们可以用任意实现状态到价值的映射的函数对价值函数进行估计,但如果仅仅是映射,每个状态对应一个固定的价值,就无法在学习过程中更新对价值进行更新。由此引入参数化的函数 \begin{equatio…
Read more
learn, build, evaluate
1. 参数化函数 之前介绍的学习算法都是基于表格的,问题涉及的状态和动作空间都很小,价值函数可以用表格保存下载。而实际场景中,往往涉及大量的状态和动作,难以用表格来保存价值函数。 除了用表格的方式,我们可以用任意实现状态到价值的映射的函数对价值函数进行估计,但如果仅仅是映射,每个状态对应一个固定的价值,就无法在学习过程中更新对价值进行更新。由此引入参数化的函数 \begin{equatio…
Read more