Daily Archive: 2019-11-11

[RL Note] “行动器-评判器”方法

1. “行动器-评判器”方法   直接学习策略参数与学习价值函数并不是互斥的,二者可以结合起来:参数化策略作为行动器(actor)选择动作,价值函数作为评判器(critic)对行动器选择的动作进行评价。   对于策略参数的更新公式 \begin{equation} \boldsymbol{\mathrm{\theta}}_{t+1} \doteq \boldsymbol{\mathrm{\…
Read more