10 | 11 月 | 2019 | nex3z's blog

[RL Notes] 估计策略的梯度

Author: nex3z 2019-11-10

　　策略梯度定理给出了计算策略梯度的简单方法 \begin{equation} \nabla r(\pi) = \sum_{s} \mu_\pi(s) \sum_{a} \nabla \pi(a|s, \boldsymbol{\mathrm{\theta}}) q_{\pi}(s, a) \tag{1} \end{equation} 其中的 $\sum_{s} \mu_\pi(s)$ 需要对所有状…
Read more

Reinforcement Learning

Policy Gradient, Reinforcement Learning

[RL Notes] 持续性任务的策略梯度

Author: nex3z 2019-11-10

1. 学习策略的目标　　为了改善参数化策略，首先要确定优化目标。强化学习的目标是最大化长期收益，更具体地，分幕式任务的目标是最大化收益序列构成的回报 \begin{equation} G_t = \sum_{t=0}^T R_{t} \tag{1} \end{equation} 对于持续性任务，为了使回报有限而引入折扣，目标是最大化折后回报 \begin{equation} G_t = \sum…
Read more

Reinforcement Learning

Policy Gradient, Reinforcement Learning

[RL Notes] 学习参数化策略

Author: nex3z 2019-11-10

1. 直接学习策略　　前面介绍的学习策略的方法都需要先学习动作价值函数，基于广义策略迭代来改善策略。学习策略的另一种方法是通过函数逼近来表示和学习参数化的策略，此时价值函数可以用于学习策略的参数，但其对于动作选择就不是必需的了。　　在参数化策略中，使用 $\boldsymbol{\mathrm{\theta}} \in \mathbb{R}^{d’}$ 表示策略的参数向量，把在 $…
Read more

Reinforcement Learning

Parameterized Policy, Reinforcement Learning

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

Daily Archive: 2019-11-10

[RL Notes] 估计策略的梯度

[RL Notes] 持续性任务的策略梯度

[RL Notes] 学习参数化策略