Daily Archive: 2019-10-14

[RL Notes] 基于置信度上界的动作选择

Author: nex3z 2019-10-14

由于我们使用收益的样本来估计动作的价值，因此在估计中存在不确定性。通过试探可以降低估计的不确定性，从而在未来做出更好的选择。前文提到的 $\varepsilon$ – 贪心算法以一定概率进行探索，即随机地选择动作，这是一种盲目的选择。一种更好的试探的方法是，选择最有潜力的非贪心动作。衡量一个动作有多大“潜力”，需要考量这个动作的估计有多接近最大值，以及估计的不确…
Read more

Reinforcement Learning

UCB

1. 乐观初始值　　在前文提到的学习算法中，如果一个动作 $a$ 从未被选择过，我们就无法根据历史数据去估计该动作的价值 $Q_t(a)$，此时需要为动作价值的估计设置一个初始值 $Q_1(a)$。这使得每个动作价值估计的初始值变成了一个需要配置的参数，通过选择合适的初始值，可以对试探和开发进行平衡。　　使用乐观的初始值有利于试探。如果动作价值估计的初始值大于动作的真实价值，则在学习的初期，选…
Read more

Reinforcement Learning

Optimistic Initial Value

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Daily Archive: 2019-10-14

[RL Notes] 基于置信度上界的动作选择

[RL Notes] 乐观初始值