Daily Archive: 2019-10-24

[RL Notes] epsilson 软性策略

Author: nex3z 2019-10-24

在真实环境中，并不是总能满足试探性出发的假设，例如在某些任务中的状态和动作太多，或者实验的成本很大，无法确保智能体能够以所有可能的“状态-动作”二元组作为起始状态。　　$\varepsilon$-贪心方法是一种 $\varepsilon$-贪心策略，即在绝大多数情况下选择获得最大动作价值估计的动作，同时而以一个较小的概率 $\varepsilon$ 随机选择一个动作。所有…
Read more

Reinforcement Learning

Epsilon-soft Policy, Reinforcement Learning

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31