Tag Archive: UCB

[RL Notes] 基于置信度上界的动作选择

  由于我们使用收益的样本来估计动作的价值,因此在估计中存在不确定性。通过试探可以降低估计的不确定性,从而在未来做出更好的选择。前文提到的 $\varepsilon$ – 贪心算法以一定概率进行探索,即随机地选择动作,这是一种盲目的选择。一种更好的试探的方法是,选择最有潜力的非贪心动作。衡量一个动作有多大“潜力”,需要考量这个动作的估计有多接近最大值,以及估计的不确…
Read more