Tag Archive: Dyna-Q+

[RL Notes] 不正确的模型

  规划依赖于模型生成模拟经验,如果模型不正确,规划就可能得到次优的策略。不正确的模型指的是模型中保存的状态转移与实际环境中的状态转移不符。如果在学习过程中环境发生了改变,而这些改变还没有被观察到,模型会给出错误的状态转移。在学习刚开始的时候,智能体只尝试过有限的动作,模型中还没有保存未选择过的动作的状态转移,此时称模型是不完整的。 1. 不完整的模型   对于模型不完整的问题…
Read more