[RL Notes] 最优价值函数

Author: nex3z 2019-10-18

Reinforcement Learning

Optimal Value Functions

Contents

1. 最优价值函数
2. 贝尔曼最优方程

1. 最优价值函数

　　由最优策略的定义可知，最优策略共享相同的最优状态价值函数，定义为对于任意 $s \in \mathcal S$，

\begin{equation}
v_*(s) \doteq \max_\pi v_\pi(s) \tag{1}
\end{equation}

　　类似地，最优的策略也共享相同的最优动作价值函数，记为 $q_*$，定义为对于任意 $s \in \mathcal S, a \in \mathcal A$，

\begin{equation}
q_*(s, a) \doteq \max_\pi q_\pi(s, a) \tag{2}
\end{equation}

式 $(2)$ 表示在状态 $s$ 下先选择动作 $a$，然后采取最优策略进行决策的期望回报，故可以用 $v_*$ 来表示 $q_*$，即

\begin{equation}
q_*(s, a) = \mathbb{E}[R_{t+1} + \gamma v_*(S_{t+1}) | S_t = s, A_t = a] \tag{3}
\end{equation}

2. 贝尔曼最优方程

　　最优状态价值函数仍满足的状态价值的贝尔曼方程，此时

\begin{equation}
v_*(s) = \sum_a \pi_*(a|s) \sum_{s’} \sum_{r} p(s’, r | s, a) \Big[ r + \gamma v_*(s’) \Big] \tag{4}
\end{equation}

最优策略 $\pi_*$ 在每个状态都会选择最优动作，即以概率 $1$ 选择具有最大价值的动作，而选择其他动作的概率为 $0$，于是可以将式 $(4)$ 中的 $\sum\limits_a \pi_*(a|s)$ 替换为 $\max\limits_{a}$，即

\begin{equation}
v_*(s) = \max_{a} \sum_{s’} \sum_{r} p(s’, r | s, a) \Big[ r + \gamma v_*(s’) \Big] \tag{5}
\end{equation}

注意式 $(5)$ 中不再出现 $\pi_*$，使用 $v_*(s’)$ 表示 $v_*(s)$。式 $(5)$ 称为 $v_*$ 的贝尔曼最优方程。

　　类似地，最优动作价值函数也满足动作价值的贝尔曼方程，此时

\begin{align}
q_*(s, a) = \sum_{s’} \sum_{r} p(s’, r | s, a) \Big[ r + \gamma \sum_{a’} \pi_*(a’|s’) q_* (s’, a’) \Big] \tag{6}
\end{align}

出于同样的原因，将式 $(6)$ 中的 $\sum\limits_{a’} \pi_*(a’|s’)$ 替换为 $\max\limits_{a’}$，得到

\begin{align}
q_*(s, a) = \sum_{s’} \sum_{r} p(s’, r | s, a) \Big[ r + \gamma \max_{a’} q_* (s’, a’) \Big] \tag{7}
\end{align}

式 $(7)$ 称为 $q_*$ 的贝尔曼最优方程。

　　在前文的例子中，我们通过贝尔曼方程构造线性方程组来计算状态价值。类似地，通过贝尔曼最优方程，可以构造最优状态价值的方程组。但由于贝尔曼最优方程中的 $\max$ 不是一个线性操作，因此无法使用线性代数中求解线性系统的方法来求解这一方程组，而是需要一些其他的技巧。注意式 $(4)$ 中虽然没有 $\max$ 操作，但并不能用它来构造最优状态价值的方程组，因为其中的 $\pi_*$ 是未知的，如果知道了 $\pi_*$，强化学习的问题就解决了。

　　通过贝尔曼最优方程求解得到 $v_*$ 后，就可以很容易地确定最优策略 $\pi_*$。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31