Tag Archive: Parameterized Policy

[RL Notes] 学习参数化策略

Author: nex3z 2019-11-10

1. 直接学习策略　　前面介绍的学习策略的方法都需要先学习动作价值函数，基于广义策略迭代来改善策略。学习策略的另一种方法是通过函数逼近来表示和学习参数化的策略，此时价值函数可以用于学习策略的参数，但其对于动作选择就不是必需的了。　　在参数化策略中，使用 $\boldsymbol{\mathrm{\theta}} \in \mathbb{R}^{d’}$ 表示策略的参数向量，把在 $…
Read more

Reinforcement Learning

Parameterized Policy, Reinforcement Learning

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31