[RL Note] 强化学习的目标

1. 强化学习的目标

  在强化学习中,智能体的目标是最大化其收到的总收益,或者更具体地,最大化智能体收到的标量信号(收益)累计和的概率期望值。总收益是长期积累得到的,最大化总收益并不意味着最大化当前收益。

2. 分幕式任务

  在时刻 $t$,智能体要选择动作,以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$,我们希望最大化收益序列构成的回报 $G_t$。$G_t$ 可以有多种定义,一个简单的定义是使用收益的总和,即

\begin{equation}
G_t \doteq R_{t+1} + R_{t+2} + R_{t+3} + \cdots
\end{equation}

$G_t$ 是一个随机变量,我们希望最大化它的期望,即

\begin{equation}
\mathbb E[G_t] \doteq \mathbb E[R_{t+1} + R_{t+2} + R_{t+3} + \cdots]
\end{equation}

注意要使得上式有定义,则收益序列必须有限,即

\begin{equation}
G_t \doteq R_{t+1} + R_{t+2} + R_{t+3} + \cdots + R_T \tag{1}
\end{equation}

\begin{equation}
\mathbb E[G_t] \doteq \mathbb E[R_{t+1} + R_{t+2} + R_{t+3} + \cdots + R_T] \tag{2}
\end{equation}

其中 $T$ 是最终时刻。

  式 $(1)$ 和式 $(2)$ 的定义需要智能体与环境的交互有最终时刻的概念,即智能体和环境进行的一系列交互可以自然地分成若干子序列,例如进行若干盘象棋游戏。每一个子序列称为一个(episodes),例如一盘象棋。每幕都一一个特殊状态结束,称为终结状态,例如游戏结束。随后又会复位回初始状态,开始新的一幕,例如棋子复位。每一幕的开始状态与上一幕的结束状态无关。每一幕终结的时刻可能是不同的,终结时刻 $T$ 是一个随机变量。具有这种分幕特性的任务称为分幕式任务(episodic task)。在分幕任务中,记非终结状态集为 $\mathcal S$,记所有状态的状态集为 $\mathcal S^+$。

3. 持续性任务

  如果智能体与环境的交互不能自然地分成单独的幕,则称这种任务为持续性任务(continuing task)。持续性任务中的交互会不断地进行下去,没有终结状态。

  如果没有终结时刻,则式 $(1)$ 中 $T = \infty$,求和将会无限进行下去,回报可能是无限的。为了得到有限的回报,可以对未来的收益进行折扣,定义折后回报

\begin{equation}
G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \tag{3}
\end{equation}

其中 $\gamma$ 称为折扣率,是一个参数,$0 \leq \gamma \leq 1$。

  在式 $(3)$ 中,如果 $\gamma < 1$,则时间上越近的收益对回报的贡献越大。对于一个最大化折后回报的智能体,当 $\gamma = 0$ 时,$G_t \doteq R_{t+1}$,智能体会非常短视,只会选择最大化 $R_{t+1}$ 的动作。随着 $\gamma$ 逐渐增大,未来收益会越来越多地影响 $G_t$,智能体变得越来越有远见。

  在式 $(3)$ 中,只要收益序列 $\{R_k\}$ 有界,则式 $(3)$ 中的求和就是一个有限值。假设最大收益为 $R_{max}$,则有

\begin{equation}
G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} < \sum_{k=0}^{\infty} \gamma^k R_{max} = R_{max} \sum_{k=0}^{\infty} \gamma^k = R_{max} \frac{1}{1-\gamma} \tag{4}
\end{equation}

  式 $(3)$ 可以表示为递归的形式

\begin{align}
G_t &\doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \gamma^3 R_{t+4} + \cdots \\
&= R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \gamma^2 R_{t+4} + \cdots) \\
&= R_{t+1} + \gamma G_{t+1} \tag{5}
\end{align}

上式将当前时刻的回报和下一时刻的回报联系起来,在推导和计算中非常有用。