Processing math: 100%

[RL Notes] 加权重要度采样及增量实现

1. 加权重要度采样

  MC 预测算法中使用的简单重要度采样定义为

V(s)tT(s)ρt:T(t)1Gt|T(s)|

其中 T(s) 为所有访问过状态 s 的集合,T(t) 表示在时刻 t 后首次终止,Gt 表示在 t 之后到达 T(t) 时的回报,{Gt}tT(s) 为状态 s 对应的回报,{ρt:T(t)1}tT(s) 为相应的重要度采样比。简单重要度采样只是简单地计算平均值。

  另外还可以使用加权平均的方法,称为加权重要度采样,定义为

V(s)tT(s)ρt:T(t)1GttT(s)ρt:T(t)1

如果式 (2) 中的分母为零,则该式的定义也为零。

2. 增量实现

  假设有一个回报序列 G1,G2,,Gn1,它们都从相同的状态开始,每一个回报对应一个随机权重 Wt(如前面的重要度采样比 Wt=ρt:T(t)1),使用加权重要度采样时,需要估计

Vnn1k=1WkGkn1k=1Wk,n2

我们希望能跟踪 Vn 的变化,从而使用增量的方式对其进行更新

Vn+1Vn+WnCn[GnVn],n1

其中

Cn+1Cn+Wn+1

定义 C00

  由此可以得到增量实现离轨策略 MC 预测算法如下所示。


离轨策略 MC 预测算法(策略评估),用于估计 Qqπ
输入:一个任意的目标策略 π
初始化:对所有 sSaA(s)
  任意初始化 Q(s,a)R
  C(s,a)0
无限循环(对每幕):
  b 任何能包括 π 的策略
  根据 b 生成一幕序列:S0,A0,R1,,ST1,AT1,RT
  G0
  W1
  对幕中的每一步循环,t=T1,T2,,0,当 W0 时:
    GγG+Rt+1
    C(St,At)C(St,At)+W
    Q(St,At)Q(St,At)+WC(St,At)[GQ(St,At)]
    WWπ(At|St)b(At|St)
    如果 W=0,则退出内循环