[RL Notes] 试探和开发
1. 开发和试探的冲突 通过估计各个动作的价值,在每一时刻都至少有一个动作具有最大的估计价值。选择具有最大估计价值的动作,即贪心动作,是开发(Exploitation)利用了历史上关于动作价值的知识,通过选择距今为止表现最好的动作,以期最大化收益。 如果没有选择贪心动作,则称进行了试探(Expolration),通过尝试非贪心动作并记录其收益,可以改善对非贪心动作的价值的估计。试探没有选择…
Read more
learn, build, evaluate
1. 开发和试探的冲突 通过估计各个动作的价值,在每一时刻都至少有一个动作具有最大的估计价值。选择具有最大估计价值的动作,即贪心动作,是开发(Exploitation)利用了历史上关于动作价值的知识,通过选择距今为止表现最好的动作,以期最大化收益。 如果没有选择贪心动作,则称进行了试探(Expolration),通过尝试非贪心动作并记录其收益,可以改善对非贪心动作的价值的估计。试探没有选择…
Read more