Daily Archive: 2019-10-19

[RL Note] 策略评估和控制

  强化学习的过程中通常会涉及两类任务:策略评估(policy evaluation)和控制(control)。策略评估指的是计算特定策略的价值函数,控制指的是找到能够最大化收益的策略。虽然控制是强化学习的最终目标,但策略评估往往是第一步——要改善策略,首先要能够比较策略的好坏。 1. 策略评估   在策略评估中,要计算给定策略 $\pi$ 的状态价值函数 $v_\pi$,策略和价值函数文中给出了…
Read more