Tag Archive: State-Value Function

[RL Notes] 策略和价值函数

Author: nex3z 2019-10-16

1. 策略　　在 MDP 的每个时刻，智能体要在当前状态下选择要执行的动作，智能体根据状态选择动作的方式称为策略。更严格地，策略（policy）是从状态到选择每个动作的概率之间的映射。　　从一个状态映射到一个动作的策略称为确定性策略（deterministic policy）记做 \begin{equation} \pi(s) = a \tag{1} \end{equation} 其中 $\p…
Read more

Reinforcement Learning

Action-Value Function, State-Value Function

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31