Tag Archive: Asynchronous DP

[RL Note] 广义策略迭代

1. 广义策略迭代   策略迭代包含策略评估和策略改进两个不断交替进行、相互作用的步骤,前文给出的策略迭代方法只在一个步骤完成后才开始下一个步骤,但这并不是必须的。使用广义策略迭代指代各种组织策略评估和策略改进相互作用的一般方法。 2. 价值迭代   注意到一次策略评估本身就是一个迭代的过程,如使用前文中的迭代策略评估算法,这是一个非常耗时的计算。有多种方式可以提前截断策略迭代中的策略评估步骤,而…
Read more