[RL Notes] 最优策略
1. 最优策略 强化学习的任务是找出一个最优策略,使其能在长期过程中获得最大收益。可以通过价值函数来比较策略的优劣,对于策略 $\pi$ 和 $\pi’$,若策略 $\pi$ 在所有状态上的期望回报都大于等于策略 $\pi’$ 的期望回报,则称策略 $\pi$ 与策略 $\pi’$ 差不多或更好。$\pi \geq \pi’$ 当且仅当 $v_\…
Read more
learn, build, evaluate
1. 最优策略 强化学习的任务是找出一个最优策略,使其能在长期过程中获得最大收益。可以通过价值函数来比较策略的优劣,对于策略 $\pi$ 和 $\pi’$,若策略 $\pi$ 在所有状态上的期望回报都大于等于策略 $\pi’$ 的期望回报,则称策略 $\pi$ 与策略 $\pi’$ 差不多或更好。$\pi \geq \pi’$ 当且仅当 $v_\…
Read more