[RL Notes] 乐观初始值
1. 乐观初始值 在前文提到的学习算法中,如果一个动作 $a$ 从未被选择过,我们就无法根据历史数据去估计该动作的价值 $Q_t(a)$,此时需要为动作价值的估计设置一个初始值 $Q_1(a)$。这使得每个动作价值估计的初始值变成了一个需要配置的参数,通过选择合适的初始值,可以对试探和开发进行平衡。 使用乐观的初始值有利于试探。如果动作价值估计的初始值大于动作的真实价值,则在学习的初期,选…
Read more
learn, build, evaluate
1. 乐观初始值 在前文提到的学习算法中,如果一个动作 $a$ 从未被选择过,我们就无法根据历史数据去估计该动作的价值 $Q_t(a)$,此时需要为动作价值的估计设置一个初始值 $Q_1(a)$。这使得每个动作价值估计的初始值变成了一个需要配置的参数,通过选择合适的初始值,可以对试探和开发进行平衡。 使用乐观的初始值有利于试探。如果动作价值估计的初始值大于动作的真实价值,则在学习的初期,选…
Read more