Daily Archive: 2019-10-18

[RL Notes] 最优价值函数

Author: nex3z 2019-10-18

1. 最优价值函数　　由最优策略的定义可知，最优策略共享相同的最优状态价值函数，定义为对于任意 $s \in \mathcal S$， \begin{equation} v_*(s) \doteq \max_\pi v_\pi(s) \tag{1} \end{equation} 　　类似地，最优的策略也共享相同的最优动作价值函数，记为 $q_*$，定义为对于任意 $s \in \math…
Read more

Reinforcement Learning

Optimal Value Functions

[RL Notes] 最优策略

Author: nex3z 2019-10-18

1. 最优策略　　强化学习的任务是找出一个最优策略，使其能在长期过程中获得最大收益。可以通过价值函数来比较策略的优劣，对于策略 $\pi$ 和 $\pi’$，若策略 $\pi$ 在所有状态上的期望回报都大于等于策略 $\pi’$ 的期望回报，则称策略 $\pi$ 与策略 $\pi’$ 差不多或更好。$\pi \geq \pi’$ 当且仅当 $v_\…
Read more

Reinforcement Learning

Optiman Policy

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31