[RL Notes] 分幕式 Sarsa 的函数逼近

Author: nex3z 2019-11-09

Expected Sarsa, Function Approximation, Reinforcement Learning, Sarsa

Contents [show]

1. 函数逼近中的动作价值

　　线性方法近似的价值函数为权重向量和特征向量的内积

$\begin{equation} v_\pi(s) \approx \hat{v}(s, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}} \tag{1} \end{equation}$

可以使用类似地形式估计动作价值函数，此时需要让特征能够表示动作，即

$\begin{equation} q_\pi(s, a) \approx \hat{q}(s, a, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}}(s, a) \tag{2} \end{equation}$

　　构造特征来表示动作的方法之一是让每个动作使用相同的状态特征，然后将这些状态的特征堆叠起来。例如现有 $4$ 个特征和 $3$ 个动作

$\begin{equation} \boldsymbol{\mathrm{x}} = \begin{bmatrix} x_0(s) \\ x_1(s) \\ x_2(s) \\ x_3(s) \end{bmatrix} \\ \mathcal{A}(s) = \{\color{red}{a_0}, \color{green}{a_0}, \color{blue}{a_0}\} \end{equation}$

则构造的状态动作特征为

$\begin{equation} \boldsymbol{\mathrm{x}}(s, a) = \begin{bmatrix} \color{red}{x_0(s)} \\ \color{red}{x_1(s)} \\ \color{red}{x_2(s)} \\ \color{red}{x_3(s)} \\ \color{green}{x_0(s)} \\ \color{green}{x_1(s)} \\ \color{green}{x_2(s)} \\ \color{green}{x_3(s)} \\ \color{blue}{x_0(s)} \\ \color{blue}{x_1(s)} \\ \color{blue}{x_2(s)} \\ \color{blue}{x_3(s)}\end{bmatrix} \end{equation}$

$\boldsymbol{\mathrm{x}}(s, a)$ 将 $4$ 个状态的特征重复堆叠了 $3$ 组，每一组对应一个动作。当一个动作发生时，只有该动作对应的状态特征被激活，其他状态特征置 $0$ 。例如选择动作 $a_0$ 时，有

$\begin{equation} \boldsymbol{\mathrm{x}}(s, a_0) = \begin{bmatrix} \color{red}{x_0(s)} \\ \color{red}{x_1(s)} \\ \color{red}{x_2(s)} \\ \color{red}{x_3(s)} \\ \color{green}{0} \\ \color{green}{0} \\ \color{green}{0} \\ \color{green}{0} \\ \color{blue}{0} \\ \color{blue}{0} \\ \color{blue}{0} \\ \color{blue}{0} \end{bmatrix} \end{equation}$

　　举例来说，给定 $\boldsymbol{\mathrm{x}}(s_0)$ 和 $\boldsymbol{\mathrm{w}}$ ，计算 $\hat{q}(s_0, a_0, \boldsymbol{\mathrm{w}})$ 的过程如下。

$\begin{align} & \boldsymbol{\mathrm{x}}(s_0) = \begin{bmatrix} 1 \\ 0 \\ 0 \\ 1 \end{bmatrix} \quad \boldsymbol{\mathrm{w}} = \begin{bmatrix} \color{red}{0.7} \\ \color{red}{0.1} \\ \color{red}{0.4} \\ \color{red}{0.3} \\ \color{green}{2.2} \\ \color{green}{1.0} \\ \color{green}{0.6} \\ \color{green}{1.8} \\ \color{blue}{1.3} \\ \color{blue}{1.1} \\ \color{blue}{0.9} \\ \color{blue}{1.7}\end{bmatrix} \quad \boldsymbol{\mathrm{x}}(s_0, a_0) = \begin{bmatrix} \color{red}{1} \\ \color{red}{0} \\ \color{red}{0} \\ \color{red}{1} \\ \color{green}{0} \\ \color{green}{0} \\ \color{green}{0} \\ \color{green}{0} \\ \color{blue}{0} \\ \color{blue}{0} \\ \color{blue}{0} \\ \color{blue}{0} \end{bmatrix} \quad \hat{q}(s_0, a_0, \boldsymbol{\mathrm{w}}) = 1 * 0.7 + 1 * 0.3 = 1 \\ & \mathcal{A}(s) = \{\color{red}{a_0}, \color{green}{a_0}, \color{blue}{a_0}\} \end{align}$

　　除了在线性方法中通过堆叠特征来表示动作价值，还可以通过神经网络为每一个动作输出一个值，此时神经网络的输入为状态 $s$ ，输出为每一个动作的动作价值，如 $\hat{q}(s, a_0, \boldsymbol{\mathrm{w}}), \hat{q}(s, a_1, \boldsymbol{\mathrm{w}}), \cdots, \hat{q}(s, a_d, \boldsymbol{\mathrm{w}})$ ，如图 1 所示。

图 1

　　注意图 1 在计算输出的动作价值时，每个动作其使用的权重都不相同。为了能在动作间进行泛化，可以同时将状态 $s$ 和动作作 $a$ 为网络的输入，网络输出一个值，即 $\hat{q}(s, a, \boldsymbol{\mathrm{w}})$ ，如图 2 所示。

图 2

2. 通过函数逼近进行 Sarsa 控制

　　有了动作价值的表示之后，完整的分幕式半梯度 Sarsa 算法如下所示。

分幕式半梯度 Sarsa，用于估计 $\hat{q} \approx q$
输入：一个参数化的可微动作价值函数 $\hat{q} = \mathcal{S} \times \mathcal{A} \times \mathbb{R}^d \rightarrow \mathbb{R}$
算法参数：步长 $\alpha > 0$ ，很小的 $\varepsilon$ ， $\varepsilon > 0$
任意初始化价值函数的权值 $\boldsymbol{\mathrm{w}} \in \mathbb{R}^d$ ，比如 $\boldsymbol{\mathrm{w}} = \boldsymbol{0}$
对每一幕循环：
　　 $S, A \leftarrow$ 幕的初始状态和动作（如 $\varepsilon$ -贪心策略）
　　对该幕的每一步循环：
　　　　采取动作 $A$ ，观察 $R, S’$
　　　　如果 $S’$ 为终止状态：
　　　　　　 $\boldsymbol{\mathrm{w}} \leftarrow \boldsymbol{\mathrm{w}} + \alpha [R – \hat{q}(S, A, \boldsymbol{\mathrm{w}})] \nabla \hat{q}(S, A, \boldsymbol{\mathrm{w}})$
　　　　　　到下一幕
　　　　通过 $\hat{q}(S’, \cdot, \boldsymbol{\mathrm{w}})$ 选取 $A’$ （如 $\varepsilon$ -贪心策略）
　　　　 $\boldsymbol{\mathrm{w}} \leftarrow \boldsymbol{\mathrm{w}} + \alpha [R + \gamma \hat{q}(S’, A’, \boldsymbol{\mathrm{w}}) – \hat{q}(S, A, \boldsymbol{\mathrm{w}})] \nabla \hat{q}(S, A, \boldsymbol{\mathrm{w}})$
　　　　 $S \leftarrow S’$
　　　　 $A \leftarrow A’$

3. 通过函数逼近进行期望 Sarsa 控制

　　回顾 Sarsa 使用后继状态和动作的价值进行更新，其表格方法的更新为

$\begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \big[ R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) – Q(S_t, A_t) \big] \tag{3} \end{equation}$

函数逼近方法的更新为

$\begin{equation} \boldsymbol{\mathrm{w}} \leftarrow \boldsymbol{\mathrm{w}} + \alpha \big[R_{t+1} + \gamma \hat{q}(S_{t+1}, A_{t+1}, \boldsymbol{\mathrm{w}}) – \hat{q}(S_t, A_t, \boldsymbol{\mathrm{w}})\big] \nabla \hat{q}(S_t, A_t, \boldsymbol{\mathrm{w}}) \tag{4} \end{equation}$

　　期望 Sarsa 使用当前策略下的期望价值进行更新，其表格方法的更新为

$\begin{equation} Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \Big[ R_{t+1} + \gamma \sum_{a}\pi(a|S_{t+1})Q(S_{t+1}, a) – Q(S_t, A_t) \Big] \tag{5} \end{equation}$

在函数逼近方法中计算式 $(5)$ 中的期望，可以得到期望 Sarsa 的函数逼近方法的更新

$\begin{equation} \boldsymbol{\mathrm{w}} \leftarrow \boldsymbol{\mathrm{w}} + \alpha \Big[R_{t+1} + \gamma \sum_{a’}\pi(a’|S_{t+1})\hat{q}(S_{t+1}, a’, \boldsymbol{\mathrm{w}}) – \hat{q}(S_t, A_t, \boldsymbol{\mathrm{w}})\Big] \nabla \hat{q}(S_t, A_t, \boldsymbol{\mathrm{w}}) \tag{6} \end{equation}$

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30