Reinforcement Learning | nex3z's blog

[RL Notes] “行动器-评判器”方法

Author: nex3z 2019-11-11

1. “行动器-评判器”方法　　直接学习策略参数与学习价值函数并不是互斥的，二者可以结合起来：参数化策略作为行动器（actor）选择动作，价值函数作为评判器（critic）对行动器选择的动作进行评价。　　对于策略参数的更新公式 \begin{equation} \boldsymbol{\mathrm{\theta}}_{t+1} \doteq \boldsymbol{\mathrm{\…
Read more

Reinforcement Learning

Actor-Critic, Reinforcement Learning

[RL Notes] 估计策略的梯度

Author: nex3z 2019-11-10

　　策略梯度定理给出了计算策略梯度的简单方法 \begin{equation} \nabla r(\pi) = \sum_{s} \mu_\pi(s) \sum_{a} \nabla \pi(a|s, \boldsymbol{\mathrm{\theta}}) q_{\pi}(s, a) \tag{1} \end{equation} 其中的 $\sum_{s} \mu_\pi(s)$ 需要对所有状…
Read more

Reinforcement Learning

Policy Gradient, Reinforcement Learning

[RL Notes] 持续性任务的策略梯度

Author: nex3z 2019-11-10

1. 学习策略的目标　　为了改善参数化策略，首先要确定优化目标。强化学习的目标是最大化长期收益，更具体地，分幕式任务的目标是最大化收益序列构成的回报 \begin{equation} G_t = \sum_{t=0}^T R_{t} \tag{1} \end{equation} 对于持续性任务，为了使回报有限而引入折扣，目标是最大化折后回报 \begin{equation} G_t = \sum…
Read more

Reinforcement Learning

Policy Gradient, Reinforcement Learning

[RL Notes] 学习参数化策略

Author: nex3z 2019-11-10

1. 直接学习策略　　前面介绍的学习策略的方法都需要先学习动作价值函数，基于广义策略迭代来改善策略。学习策略的另一种方法是通过函数逼近来表示和学习参数化的策略，此时价值函数可以用于学习策略的参数，但其对于动作选择就不是必需的了。　　在参数化策略中，使用 $\boldsymbol{\mathrm{\theta}} \in \mathbb{R}^{d’}$ 表示策略的参数向量，把在 $…
Read more

Reinforcement Learning

Parameterized Policy, Reinforcement Learning

[RL Notes] 平均收益

Author: nex3z 2019-11-09

1. 折扣的问题　　在前文中给出了分幕式和持续性任务的目标，对于持续性任务，通过对未来的收益进行折扣来得到有限的回报，并通过折扣率来平衡短期的收益和长期的回报。　　考虑如图 1 所示的 MDP，在初始状态 $S$ 可以选择向左或者向右移动，之后的一系列确定的状态和动作，直到返回状态 $S$，然后再次面临选择。从 $S$ 向左移动到第一个状态会获得 $+1$ 的收益，从右边返回状态 $S$ 会获…
Read more

Reinforcement Learning

Average Reward, Reinforcement Learning

[RL Notes] 函数逼近中的试探

Author: nex3z 2019-11-09

1. 乐观初始值　　在表格型的方法中，使用乐观初始值有助于鼓励智能体在学习初期进行系统性的试探。类似的技巧也可以用在函数逼近的方法中，通过特定的权重初始化，使得输出乐观的价值。　　例如对于线性方法和二值特征，每个状态至少会激活一个特征，只需将权重初始化为可能得到的最大回报即可得到乐观的初始值。　　而对于如神经网络等的非线性方法，输出的价值是由输入的特征经过非常复杂的非线性计算得到的，就难以通…
Read more

Reinforcement Learning

Exploration, Reinforcement Learning

[RL Notes] 分幕式 Sarsa 的函数逼近

Author: nex3z 2019-11-09

1. 函数逼近中的动作价值　　线性方法近似的价值函数为权重向量和特征向量的内积 \begin{equation} v_\pi(s) \approx \hat{v}(s, \boldsymbol{\mathrm{w}}) \doteq \boldsymbol{\mathrm{w}}^\mathsf{T} \boldsymbol{\mathrm{x}} \tag{1} \end{equation} …
Read more

Reinforcement Learning

Expected Sarsa, Function Approximation, Reinforcement Learning, Sarsa

[RL Notes] 线性方法的特征构建

Author: nex3z 2019-11-06

1. 粗编码　　前文中提到，对于表格型的价值函数，可以通过对状态进行独热编码来构建特征，以此转换为线性函数的形式。如果状态非常多，独热编码后的特征向量就会非常长。一种更短的编码方式是先对近似的状态进行聚合，再对聚合后的状态进行独热编码。　　状态聚合通常只将一个状态只被聚合到一个类里，但这并不是强制要求。如图 1 所示，使用若干个圆对状态空间进行划分，每个特征对应一个圆。如果状态在一个圆内，则对…
Read more

Reinforcement Learning

Coarse Coding, Reinforcement Learning, Tile Coding

[RL Notes] 线性方法

Author: nex3z 2019-11-05

1. 线性方法　　我们可以在强化学习中使用任意类型的函数进行函数逼近，使用线性函数是最重要的特殊情况之一。线性函数易于理解，便于记性数学计算，而且通过结合领域知识构造合适的特征，可以快速地学习并达到较高的准确度。　　这里的“线性”指的是近似函数 $\hat{v}(\cdot, \boldsymbol{\mathrm{w}})$ 是权重向量 $\boldsymbol{\mathrm{w}}$ 的…
Read more

Reinforcement Learning

Reinforcement Learning, TD

[RL Notes] 时序差分的目标

Author: nex3z 2019-11-04

1. 半梯度下降　　对于通用 SGD 方法 \begin{equation} \boldsymbol{\mathrm{w}}_{t+1} \doteq \boldsymbol{\mathrm{w}}_t + \alpha \big[U_t – \hat{v}(s, \boldsymbol{\mathrm{w}}_t)^2\big] \nabla \hat{v}(s, …
Read more

Reinforcement Learning

Reinforcement Learning, Semi-Gradient

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tag Archive: Reinforcement Learning

[RL Notes] “行动器-评判器”方法

[RL Notes] 估计策略的梯度

[RL Notes] 持续性任务的策略梯度

[RL Notes] 学习参数化策略

[RL Notes] 平均收益

[RL Notes] 函数逼近中的试探

[RL Notes] 分幕式 Sarsa 的函数逼近

[RL Notes] 线性方法的特征构建

[RL Notes] 线性方法

[RL Notes] 时序差分的目标

Post navigation