Tag Archive: Actor-Critic

[RL Notes] “行动器-评判器”方法

Author: nex3z 2019-11-11

1. “行动器-评判器”方法　　直接学习策略参数与学习价值函数并不是互斥的，二者可以结合起来：参数化策略作为行动器（actor）选择动作，价值函数作为评判器（critic）对行动器选择的动作进行评价。　　对于策略参数的更新公式 \begin{equation} \boldsymbol{\mathrm{\theta}}_{t+1} \doteq \boldsymbol{\mathrm{\…
Read more

Reinforcement Learning

Actor-Critic, Reinforcement Learning

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31