[RL Notes] 最优策略
Contents [show]
1. 最优策略
强化学习的任务是找出一个最优策略,使其能在长期过程中获得最大收益。可以通过价值函数来比较策略的优劣,对于策略 π 和 π′,若策略 π 在所有状态上的期望回报都大于等于策略 π′ 的期望回报,则称策略 π 与策略 π′ 差不多或更好。π≥π′ 当且仅当 vπ(s)≥vπ′(s),∀s∈S。总会有至少一个策略不差于其他所有策略,这就是最优策略。
需要注意的是,总会有至少一个策略不差于其他所有策略,即最优策略,它在所有状态上的期望收益都不低于其他策略,不存在期望收益在某些状态上高于、并在另一些状态上低于其他策略的“最优”策略。假设有两个策略 π1 和 π2,π1 在某些状态上优于 π2,而 π2 在另一些状态上优于 π1,此时可以构造策略 π3,它在每个状态都从 π1 和 π2 中在该状态具有最大收益的策略,由此构造的 π3 不会差于 π1 和 π2。
使用 π∗ 表示最优策略,它的状态价值函数称为最优状态价值函数,记做 v∗,定义为对于任意 s∈S,
v∗(s)≐maxπvπ(s)
如果最优策略不止一个,则这些策略共享相同的最优状态价值函数。
2. 一个例子
考虑如图 1 所示的持续性 MDP,在状态 X 下有两个可选动作 A1 和 A2。A1 会立即带来 +1 的收益并进入状态 Y,状态 Y 只有一个可选动作,以收益 0 回到 X;A2 收益为 0 并进入状态 Z,状态 Z 只有一个可选动作,以收益 +2 回到 X。
注意 A1 和 A2 的区别在于一个带来短期较小的收益,一个带来长期较大的收益。取决于在状态 X 选择哪个动作,这个 MDP 只有两个确定的策略
π1(X)=A1π2(X)=A2
最优策略是使得状态 X 具有最大价值的策略,取决于折扣因子 γ。
如果 γ=0,则状态 X 的价值仅取决于当前收益,此时
vπ1=1vπ2=0
可见此时 vπ1 是最优策略。
如果 γ=0.9,则状态 X 的价值取决于当前和未来收益,此时
vπ1=1+0.9∗0+0.92∗1+⋯=∞∑k=00.92k=11−0.92≈5.3vπ2=0+0.9∗2+0.92∗0+⋯=∞∑k=00.92k+1×2=0.91−0.92×2≈9.5
可见此时 vπ2 是最优策略。
在上面这个简单的例子中,只有两个确定的策略,只需计算每个策略的价值函数,就可以很容易地找到最优策略。而实际问题往往复杂得多,涉及到大量的动作和状态,由此带来大量的策略,此时就无法再暴力地计算每个策略的价值函数了。