[RL Notes] 最优价值函数
1. 最优价值函数 由最优策略的定义可知,最优策略共享相同的最优状态价值函数,定义为对于任意 $s \in \mathcal S$, \begin{equation} v_*(s) \doteq \max_\pi v_\pi(s) \tag{1} \end{equation} 类似地,最优的策略也共享相同的最优动作价值函数,记为 $q_*$,定义为对于任意 $s \in \math…
Read more
learn, build, evaluate
1. 最优价值函数 由最优策略的定义可知,最优策略共享相同的最优状态价值函数,定义为对于任意 $s \in \mathcal S$, \begin{equation} v_*(s) \doteq \max_\pi v_\pi(s) \tag{1} \end{equation} 类似地,最优的策略也共享相同的最优动作价值函数,记为 $q_*$,定义为对于任意 $s \in \math…
Read more