Tag Archive: Epsilon-soft Policy

[RL Notes] epsilson 软性策略

  在真实环境中,并不是总能满足试探性出发的假设,例如在某些任务中的状态和动作太多,或者实验的成本很大,无法确保智能体能够以所有可能的“状态-动作”二元组作为起始状态。   $\varepsilon$-贪心方法是一种 $\varepsilon$-贪心策略,即在绝大多数情况下选择获得最大动作价值估计的动作,同时而以一个较小的概率 $\varepsilon$ 随机选择一个动作。所有…
Read more