Daily Archive: 2019-11-10

[RL Notes] 持续性任务的策略梯度

1. 学习策略的目标   为了改善参数化策略,首先要确定优化目标。强化学习的目标是最大化长期收益,更具体地,分幕式任务的目标是最大化收益序列构成的回报 \begin{equation} G_t = \sum_{t=0}^T R_{t} \tag{1} \end{equation} 对于持续性任务,为了使回报有限而引入折扣,目标是最大化折后回报 \begin{equation} G_t = \sum…
Read more

[RL Notes] 学习参数化策略

1. 直接学习策略   前面介绍的学习策略的方法都需要先学习动作价值函数,基于广义策略迭代来改善策略。学习策略的另一种方法是通过函数逼近来表示和学习参数化的策略,此时价值函数可以用于学习策略的参数,但其对于动作选择就不是必需的了。   在参数化策略中,使用 $\boldsymbol{\mathrm{\theta}} \in \mathbb{R}^{d’}$ 表示策略的参数向量,把在 $…
Read more