Tag Archive: Epsilon-soft Policy

[RL Note] epsilson 软性策略

  在动作价值的蒙特卡洛估计中提到,真实环境中并不是总能满足试探性出发的假设,某些任务中的状态和动作太多,或者实验的成本很大,无法确保智能体能够以所有可能的“状态-动作”二元组作为起始状态。   前面提到的 $\varepsilon$-贪心方法是一种 $\varepsilon$-贪心策略,即在绝大多数情况下选择获得最大动作价值估计的动作,同时而以一个较小的概率 $\varepsilon$ 随机选择…
Read more