Daily Archive: 2019-10-16

[RL Note] 策略和价值函数

1. 策略   在 MDP 的每个时刻,智能体要在当前状态下选择要执行的动作,智能体根据状态选择动作的方式称为策略。更严格地,策略(policy)是从状态到选择每个动作的概率之间的映射。   从一个状态映射到一个动作的策略称为确定性策略(deterministic policy)记做 \begin{equation} \pi(s) = a \tag{1} \end{equation} 其中 $\p…
Read more