[RL Notes] 离轨策略蒙特卡洛控制
结合加权重要度采样的增量实现,可以得到对应的离轨策略 MC 控制算法如下所示。
离轨策略 MC 控制算法,用于估计 π≈π∗
初始化:对所有 s∈S,a∈A(s):
Q(s,a)∈R(任意值)
C(s,a)←0
π(s)←argmaxaQ(s,a)(出现平分的情况下选取方法应保持一致)
无限循环(对每幕):
b← 任意软性策略
根据 b 生成一幕数据:S0,A0,R1,⋯,ST−1,AT−1,RT
G←0
W←1
对幕中的每一步循环,t=T−1,T−2,⋯,0:
G←γG+Rt+1
C(St,At)←C(St,At)+W
Q(St,At)←Q(St,At)+WC(St,At)[G–Q(St,At)]
πSt←argmaxaQ(St,a)(出现平分的情况下选取方法应保持一致)
如果 At≠π(St) 那么退出内层循环(处理下一幕数据)
W←Wπ(At|St)b(At|St)