[RL Notes] 估计策略的梯度
策略梯度定理给出了计算策略梯度的简单方法 \begin{equation} \nabla r(\pi) = \sum_{s} \mu_\pi(s) \sum_{a} \nabla \pi(a|s, \boldsymbol{\mathrm{\theta}}) q_{\pi}(s, a) \tag{1} \end{equation} 其中的 $\sum_{s} \mu_\pi(s)$ 需要对所有状…
Read more
learn, build, evaluate
策略梯度定理给出了计算策略梯度的简单方法 \begin{equation} \nabla r(\pi) = \sum_{s} \mu_\pi(s) \sum_{a} \nabla \pi(a|s, \boldsymbol{\mathrm{\theta}}) q_{\pi}(s, a) \tag{1} \end{equation} 其中的 $\sum_{s} \mu_\pi(s)$ 需要对所有状…
Read more
1. 学习策略的目标 为了改善参数化策略,首先要确定优化目标。强化学习的目标是最大化长期收益,更具体地,分幕式任务的目标是最大化收益序列构成的回报 \begin{equation} G_t = \sum_{t=0}^T R_{t} \tag{1} \end{equation} 对于持续性任务,为了使回报有限而引入折扣,目标是最大化折后回报 \begin{equation} G_t = \sum…
Read more