[RL Notes] 贝尔曼方程
1. 状态价值的贝尔曼方程 考虑状态价值函数 \begin{equation} v_\pi(s) \doteq \mathbb{E}_\pi[G_t|S_t = s] \tag{1} \end{equation} 其中 $G_t$ 是 $t$ 时刻后的回报,对于持续性任务,使用折后回报,即 \begin{equation} G_t \doteq R_{t+1} + \gamma…
Read more
learn, build, evaluate
1. 状态价值的贝尔曼方程 考虑状态价值函数 \begin{equation} v_\pi(s) \doteq \mathbb{E}_\pi[G_t|S_t = s] \tag{1} \end{equation} 其中 $G_t$ 是 $t$ 时刻后的回报,对于持续性任务,使用折后回报,即 \begin{equation} G_t \doteq R_{t+1} + \gamma…
Read more