[RL Notes] 蒙特卡洛控制
1. 动作价值的蒙特卡洛估计 在动作价值函数的策略评估问题中,要估计策略 $\pi$ 下从状态 $s$ 选择动作 $a$ 的期望回报,即 \begin{equation} q_\pi(s, a) \doteq \mathbb{E}_\pi [G_t | S_t = s, A_t = a] \tag{1} \end{equation} 通过动作价值函数可以比较同一状态下采取不同行动的差异,这对于…
Read more
learn, build, evaluate
1. 动作价值的蒙特卡洛估计 在动作价值函数的策略评估问题中,要估计策略 $\pi$ 下从状态 $s$ 选择动作 $a$ 的期望回报,即 \begin{equation} q_\pi(s, a) \doteq \mathbb{E}_\pi [G_t | S_t = s, A_t = a] \tag{1} \end{equation} 通过动作价值函数可以比较同一状态下采取不同行动的差异,这对于…
Read more