[RL Notes] 强化学习的目标

Author: nex3z 2019-10-15

Contents [show]

1. 强化学习的目标

　　在强化学习中，智能体的目标是最大化其收到的总收益，或者更具体地，最大化智能体收到的标量信号（收益）累计和的概率期望值。总收益是长期积累得到的，最大化总收益并不意味着最大化当前收益。

2. 分幕式任务

　　在时刻 $t$ ，智能体要选择动作，以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$ ，我们希望最大化收益序列构成的回报 $G_t$ 。 $G_t$ 可以有多种定义，一个简单的定义是使用收益的总和，即

$\begin{equation} G_t \doteq R_{t+1} + R_{t+2} + R_{t+3} + \cdots \end{equation}$

$G_t$ 是一个随机变量，我们希望最大化它的期望，即

$\begin{equation} \mathbb E[G_t] \doteq \mathbb E[R_{t+1} + R_{t+2} + R_{t+3} + \cdots] \end{equation}$

注意要使得上式有定义，则收益序列必须有限，即

$\begin{equation} G_t \doteq R_{t+1} + R_{t+2} + R_{t+3} + \cdots + R_T \tag{1} \end{equation}$

$\begin{equation} \mathbb E[G_t] \doteq \mathbb E[R_{t+1} + R_{t+2} + R_{t+3} + \cdots + R_T] \tag{2} \end{equation}$

其中 $T$ 是最终时刻。

　　式 $(1)$ 和式 $(2)$ 的定义需要智能体与环境的交互有最终时刻的概念，即智能体和环境进行的一系列交互可以自然地分成若干子序列，例如进行若干盘象棋游戏。每一个子序列称为一个幕（episodes），例如一盘象棋。每幕都有一个特殊状态结束，称为终结状态，例如游戏结束。随后又会复位回初始状态，开始新的一幕，例如棋子复位。每一幕的开始状态与上一幕的结束状态无关。每一幕终结的时刻可能是不同的，终结时刻 $T$ 是一个随机变量。具有这种分幕特性的任务称为分幕式任务（episodic task）。在分幕任务中，记非终结状态集为 $\mathcal S$ ，记所有状态的状态集为 $\mathcal S^+$ 。

3. 持续性任务

　　如果智能体与环境的交互不能自然地分成单独的幕，则称这种任务为持续性任务（continuing task）。持续性任务中的交互会不断地进行下去，没有终结状态。

　　如果没有终结时刻，则式 $(1)$ 中 $T = \infty$ ，求和将会无限进行下去，回报可能是无限的。为了得到有限的回报，可以对未来的收益进行折扣，定义折后回报

$\begin{equation} G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \tag{3} \end{equation}$

其中 $\gamma$ 称为折扣率，是一个参数， $0 \leq \gamma \leq 1$ 。

　　在式 $(3)$ 中，如果 $\gamma < 1$ ，则时间上越近的收益对回报的贡献越大。对于一个最大化折后回报的智能体，当 $\gamma = 0$ 时， $G_t \doteq R_{t+1}$ ，智能体会非常短视，只会选择最大化 $R_{t+1}$ 的动作。随着 $\gamma$ 逐渐增大，未来收益会越来越多地影响 $G_t$ ，智能体变得越来越有远见。

　　在式 $(3)$ 中，只要收益序列 $\{R_k\}$ 有界，则式 $(3)$ 中的求和就是一个有限值。假设最大收益为 $R_{max}$ ，则有

$\begin{equation} G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} < \sum_{k=0}^{\infty} \gamma^k R_{max} = R_{max} \sum_{k=0}^{\infty} \gamma^k = R_{max} \frac{1}{1-\gamma} \tag{4} \end{equation}$

　　式 $(3)$ 也可以表示为递归的形式

$\begin{align} G_t &\doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \gamma^3 R_{t+4} + \cdots \\ &= R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \gamma^2 R_{t+4} + \cdots) \\ &= R_{t+1} + \gamma G_{t+1} \tag{5} \end{align}$

上式将当前时刻的回报和下一时刻的回报联系起来，在推导和计算中非常有用。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31