Daily Archive: 2019-10-16

[RL Notes] 策略和价值函数

Author: nex3z 2019-10-16

1. 策略　　在 MDP 的每个时刻，智能体要在当前状态下选择要执行的动作，智能体根据状态选择动作的方式称为策略。更严格地，策略（policy）是从状态到选择每个动作的概率之间的映射。　　从一个状态映射到一个动作的策略称为确定性策略（deterministic policy）记做 \begin{equation} \pi(s) = a \tag{1} \end{equation} 其中 $\p…
Read more

Reinforcement Learning

Action-Value Function, State-Value Function

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31