Processing math: 100%

[RL Notes] 离轨策略蒙特卡洛控制

  结合加权重要度采样的增量实现,可以得到对应的离轨策略 MC 控制算法如下所示。


离轨策略 MC 控制算法,用于估计 ππ
初始化:对所有 sSaA(s)
  Q(s,a)R(任意值)
  C(s,a)0
  π(s)argmaxaQ(s,a)(出现平分的情况下选取方法应保持一致)
无限循环(对每幕):
  b 任意软性策略
  根据 b 生成一幕数据:S0,A0,R1,,ST1,AT1,RT
  G0
  W1
  对幕中的每一步循环,t=T1,T2,,0
    GγG+Rt+1
    C(St,At)C(St,At)+W
    Q(St,At)Q(St,At)+WC(St,At)[GQ(St,At)]
    πStargmaxaQ(St,a)(出现平分的情况下选取方法应保持一致)
    如果 Atπ(St) 那么退出内层循环(处理下一幕数据)
    WWπ(At|St)b(At|St)