Daily Archive: 2019-10-31

[RL Note] Dyna

1. Dyna 架构   智能体与环境交互获得经验,这些经验一方面可以直接用于学习,例如通过Q 学习的方法,更新价值函数和策略,这称为直接强化学习(direct RL)。直接学习直接与环境交互,不受模型设计偏差的影响。另一方面,这些经验可以用来改进模型,即模型学习,并通过如Q 规划的方法从模型模拟的经验中学习,称为间接强化学习。间接学习可以在有限交互的基础上充分利用已有的经验。   Dyna 架构…
Read more

[RL Note] 模型和规划

1. 模型   像时序差分这类基于采样的方法可以从经验中学习,而动态规划算法需要知道环境的运作方式,即环境模型。环境的模型指的是一个智能体可以用来预测环境对其动作的反应的任何事物,例如 MDP 的动态特性 $p(s’,r|s, a)$。通过这样的环境模型,我们可只知道在给定状态下采取某个动作所带来的后果,而不必真的去执行这个动作。   如果模型是随机的,则会一定概率出现的多种后继状态和…
Read more