Tag Archive: Monte Carlo

[RL Notes] 蒙特卡洛控制

Author: nex3z 2019-10-23

1. 动作价值的蒙特卡洛估计　　在动作价值函数的策略评估问题中，要估计策略 $\pi$ 下从状态 $s$ 选择动作 $a$ 的期望回报，即 \begin{equation} q_\pi(s, a) \doteq \mathbb{E}_\pi [G_t | S_t = s, A_t = a] \tag{1} \end{equation} 通过动作价值函数可以比较同一状态下采取不同行动的差异，这对于…
Read more

Reinforcement Learning

Monte Carlo, Reinforcement Learning

[RL Notes] 蒙特卡洛方法和蒙特卡洛预测

Author: nex3z 2019-10-22

1. 蒙特卡洛方法　　使用动态规划来估计价值函数并寻找最优策略的效率虽然很高，但要事先知道 MDP 的动态特性 $p(s’,r|s,a)$，而在很多实际问题中，我们并不具有关于环境状态变化的先验知识，此时就需要能够仅从经验中学习，即从真实或模拟的环境交互中采样得到状态、动作、收益序列，并对价值进行估计。　　蒙特卡洛（Monte Carlo）方法指的是一系列从重复采样中进行估计的方法…
Read more

Reinforcement Learning

Monte Carlo, Reinforcement Learning

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30