Processing math: 100%

[RL Notes] 强化学习的目标

1. 强化学习的目标

  在强化学习中,智能体的目标是最大化其收到的总收益,或者更具体地,最大化智能体收到的标量信号(收益)累计和的概率期望值。总收益是长期积累得到的,最大化总收益并不意味着最大化当前收益。

2. 分幕式任务

  在时刻 t,智能体要选择动作,以最大化未来的收益。记时刻 t 后收到的收益序列为 Rt+1,Rt+1,Rt+3,,我们希望最大化收益序列构成的回报 GtGt 可以有多种定义,一个简单的定义是使用收益的总和,即

GtRt+1+Rt+2+Rt+3+

Gt 是一个随机变量,我们希望最大化它的期望,即

E[Gt]E[Rt+1+Rt+2+Rt+3+]

注意要使得上式有定义,则收益序列必须有限,即

GtRt+1+Rt+2+Rt+3++RT

E[Gt]E[Rt+1+Rt+2+Rt+3++RT]

其中 T 是最终时刻。

  式 (1) 和式 (2) 的定义需要智能体与环境的交互有最终时刻的概念,即智能体和环境进行的一系列交互可以自然地分成若干子序列,例如进行若干盘象棋游戏。每一个子序列称为一个(episodes),例如一盘象棋。每幕都有一个特殊状态结束,称为终结状态,例如游戏结束。随后又会复位回初始状态,开始新的一幕,例如棋子复位。每一幕的开始状态与上一幕的结束状态无关。每一幕终结的时刻可能是不同的,终结时刻 T 是一个随机变量。具有这种分幕特性的任务称为分幕式任务(episodic task)。在分幕任务中,记非终结状态集为 S,记所有状态的状态集为 S+

3. 持续性任务

  如果智能体与环境的交互不能自然地分成单独的幕,则称这种任务为持续性任务(continuing task)。持续性任务中的交互会不断地进行下去,没有终结状态。

  如果没有终结时刻,则式 (1)T=,求和将会无限进行下去,回报可能是无限的。为了得到有限的回报,可以对未来的收益进行折扣,定义折后回报

GtRt+1+γRt+2+γ2Rt+3+=k=0γkRt+k+1

其中 γ 称为折扣率,是一个参数,0γ1

  在式 (3) 中,如果 γ<1,则时间上越近的收益对回报的贡献越大。对于一个最大化折后回报的智能体,当 γ=0 时,GtRt+1,智能体会非常短视,只会选择最大化 Rt+1 的动作。随着 γ 逐渐增大,未来收益会越来越多地影响 Gt,智能体变得越来越有远见。

  在式 (3) 中,只要收益序列 {Rk} 有界,则式 (3) 中的求和就是一个有限值。假设最大收益为 Rmax,则有

Gt=k=0γkRt+k+1<k=0γkRmax=Rmaxk=0γk=Rmax11γ

  式 (3) 也可以表示为递归的形式

GtRt+1+γRt+2+γ2Rt+3+γ3Rt+4+=Rt+1+γ(Rt+2+γRt+3+γ2Rt+4+)=Rt+1+γGt+1

上式将当前时刻的回报和下一时刻的回报联系起来,在推导和计算中非常有用。