[RL Notes] “行动器-评判器”方法
1. “行动器-评判器”方法 直接学习策略参数与学习价值函数并不是互斥的,二者可以结合起来:参数化策略作为行动器(actor)选择动作,价值函数作为评判器(critic)对行动器选择的动作进行评价。 对于策略参数的更新公式 \begin{equation} \boldsymbol{\mathrm{\theta}}_{t+1} \doteq \boldsymbol{\mathrm{\…
Read more
learn, build, evaluate
1. “行动器-评判器”方法 直接学习策略参数与学习价值函数并不是互斥的,二者可以结合起来:参数化策略作为行动器(actor)选择动作,价值函数作为评判器(critic)对行动器选择的动作进行评价。 对于策略参数的更新公式 \begin{equation} \boldsymbol{\mathrm{\theta}}_{t+1} \doteq \boldsymbol{\mathrm{\…
Read more