[RL Notes] 平均收益
1. 折扣的问题 在前文中给出了分幕式和持续性任务的目标,对于持续性任务,通过对未来的收益进行折扣来得到有限的回报,并通过折扣率来平衡短期的收益和长期的回报。 考虑如图 1 所示的 MDP,在初始状态 $S$ 可以选择向左或者向右移动,之后的一系列确定的状态和动作,直到返回状态 $S$,然后再次面临选择。从 $S$ 向左移动到第一个状态会获得 $+1$ 的收益,从右边返回状态 $S$ 会获…
Read more
learn, build, evaluate
1. 折扣的问题 在前文中给出了分幕式和持续性任务的目标,对于持续性任务,通过对未来的收益进行折扣来得到有限的回报,并通过折扣率来平衡短期的收益和长期的回报。 考虑如图 1 所示的 MDP,在初始状态 $S$ 可以选择向左或者向右移动,之后的一系列确定的状态和动作,直到返回状态 $S$,然后再次面临选择。从 $S$ 向左移动到第一个状态会获得 $+1$ 的收益,从右边返回状态 $S$ 会获…
Read more
1. 乐观初始值 在表格型的方法中,使用乐观初始值有助于鼓励智能体在学习初期进行系统性的试探。类似的技巧也可以用在函数逼近的方法中,通过特定的权重初始化,使得输出乐观的价值。 例如对于线性方法和二值特征,每个状态至少会激活一个特征,只需将权重初始化为可能得到的最大回报即可得到乐观的初始值。 而对于如神经网络等的非线性方法,输出的价值是由输入的特征经过非常复杂的非线性计算得到的,就难以通…
Read more
1. 函数逼近中的动作价值 线性方法近似的价值函数为权重向量和特征向量的内积 \begin{equation} v_\pi(s) \approx \hat{v}(s, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}} \tag{1} \end{equation} …
Read more