Tag Archive: State-Value Function

[RL Notes] 策略和价值函数

Author: nex3z 2019-10-16

1. 策略　　在 MDP 的每个时刻，智能体要在当前状态下选择要执行的动作，智能体根据状态选择动作的方式称为策略。更严格地，策略（policy）是从状态到选择每个动作的概率之间的映射。　　从一个状态映射到一个动作的策略称为确定性策略（deterministic policy）记做 \begin{equation} \pi(s) = a \tag{1} \end{equation} 其中 $\p…
Read more

Reinforcement Learning

Action-Value Function, State-Value Function

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31