[RL Notes] 离轨策略蒙特卡洛控制
结合加权重要度采样的增量实现,可以得到对应的离轨策略 MC 控制算法如下所示。 离轨策略 MC 控制算法,用于估计 $\pi \approx \pi_*$ 初始化:对所有 $s \in \mathcal{S}$,$a \in \mathcal{A(s)}$: $Q(s, a) \in \mathbb{R}$(任意值) $C(s, a) \leftarrow …
Read more
learn, build, evaluate
结合加权重要度采样的增量实现,可以得到对应的离轨策略 MC 控制算法如下所示。 离轨策略 MC 控制算法,用于估计 $\pi \approx \pi_*$ 初始化:对所有 $s \in \mathcal{S}$,$a \in \mathcal{A(s)}$: $Q(s, a) \in \mathbb{R}$(任意值) $C(s, a) \leftarrow …
Read more