Tag Archive: Parameterized Policy

[RL Notes] 学习参数化策略

1. 直接学习策略   前面介绍的学习策略的方法都需要先学习动作价值函数,基于广义策略迭代来改善策略。学习策略的另一种方法是通过函数逼近来表示和学习参数化的策略,此时价值函数可以用于学习策略的参数,但其对于动作选择就不是必需的了。   在参数化策略中,使用 $\boldsymbol{\mathrm{\theta}} \in \mathbb{R}^{d’}$ 表示策略的参数向量,把在 $…
Read more