Daily Archive: 2019-11-11

[RL Notes] “行动器-评判器”方法

Author: nex3z 2019-11-11

1. “行动器-评判器”方法　　直接学习策略参数与学习价值函数并不是互斥的，二者可以结合起来：参数化策略作为行动器（actor）选择动作，价值函数作为评判器（critic）对行动器选择的动作进行评价。　　对于策略参数的更新公式 \begin{equation} \boldsymbol{\mathrm{\theta}}_{t+1} \doteq \boldsymbol{\mathrm{\…
Read more

Reinforcement Learning

Actor-Critic, Reinforcement Learning

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30