09 | 11 月 | 2019 | nex3z's blog

[RL Notes] 平均收益

Author: nex3z 2019-11-09

1. 折扣的问题　　在前文中给出了分幕式和持续性任务的目标，对于持续性任务，通过对未来的收益进行折扣来得到有限的回报，并通过折扣率来平衡短期的收益和长期的回报。　　考虑如图 1 所示的 MDP，在初始状态 $S$ 可以选择向左或者向右移动，之后的一系列确定的状态和动作，直到返回状态 $S$，然后再次面临选择。从 $S$ 向左移动到第一个状态会获得 $+1$ 的收益，从右边返回状态 $S$ 会获…
Read more

Reinforcement Learning

Average Reward, Reinforcement Learning

[RL Notes] 函数逼近中的试探

Author: nex3z 2019-11-09

1. 乐观初始值　　在表格型的方法中，使用乐观初始值有助于鼓励智能体在学习初期进行系统性的试探。类似的技巧也可以用在函数逼近的方法中，通过特定的权重初始化，使得输出乐观的价值。　　例如对于线性方法和二值特征，每个状态至少会激活一个特征，只需将权重初始化为可能得到的最大回报即可得到乐观的初始值。　　而对于如神经网络等的非线性方法，输出的价值是由输入的特征经过非常复杂的非线性计算得到的，就难以通…
Read more

Reinforcement Learning

Exploration, Reinforcement Learning

[RL Notes] 分幕式 Sarsa 的函数逼近

Author: nex3z 2019-11-09

1. 函数逼近中的动作价值　　线性方法近似的价值函数为权重向量和特征向量的内积 \begin{equation} v_\pi(s) \approx \hat{v}(s, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}} \tag{1} \end{equation} …
Read more

Reinforcement Learning

Expected Sarsa, Function Approximation, Reinforcement Learning, Sarsa

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

Daily Archive: 2019-11-09

[RL Notes] 平均收益

[RL Notes] 函数逼近中的试探

[RL Notes] 分幕式 Sarsa 的函数逼近