Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

[RL Notes] 离轨策略蒙特卡洛控制

  结合加权重要度采样的增量实现,可以得到对应的离轨策略 MC 控制算法如下所示。


离轨策略 MC 控制算法,用于估计 ππ
初始化:对所有 sSaA(s)
  Q(s,a)R(任意值)
  C(s,a)0
  π(s)argmaxaQ(s,a)(出现平分的情况下选取方法应保持一致)
无限循环(对每幕):
  b 任意软性策略
  根据 b 生成一幕数据:S0,A0,R1,,ST1,AT1,RT
  G0
  W1
  对幕中的每一步循环,t=T1,T2,,0
    GγG+Rt+1
    C(St,At)C(St,At)+W
    Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \frac{W}{C(S_t, A_t)} [G – Q(S_t, A_t)]
    \pi_{S_t} \leftarrow \underset{a}{\arg\max} Q(S_t, a)(出现平分的情况下选取方法应保持一致)
    如果 A_t \neq \pi(S_t) 那么退出内层循环(处理下一幕数据)
    W \leftarrow W \frac{\pi(A_t|S_t)}{b(A_t|S_t)}