10 月 | 2019 | nex3z's blog

[RL Notes] 策略评估和控制

Author: nex3z 2019-10-19

强化学习的过程中通常会涉及两类任务：策略评估（policy evaluation）和控制（control）。策略评估指的是计算特定策略的价值函数，也称为预测问题；控制指的是找到能够最大化收益的策略。虽然控制是强化学习的最终目标，但策略评估往往是第一步——要改善策略，首先要能够比较策略的好坏。 1. 策略评估　　在策略评估中，要计算给定策略 $\pi$ 的状态价值函数 \b…
Read more

Reinforcement Learning

Policy Evaluation

[RL Notes] 通过最优价值函数获得最优策略

Author: nex3z 2019-10-19

得到了最优价值函数之后，可以进一步得到最优策略。 1. 已知最优状态价值函数　　只要我们知道了最优价值函数 $v_*$ 和 MDP 的动态特性 $p(s’, r | s, a)$，就可以很容易地得到最优策略。由贝尔曼最优方程 \begin{equation} v_*(s) = \max_{a} \sum_{s’} \sum_{r} …
Read more

Reinforcement Learning

Optimal Policy

1. 最优价值函数　　由最优策略的定义可知，最优策略共享相同的最优状态价值函数，定义为对于任意 $s \in \mathcal S$， \begin{equation} v_*(s) \doteq \max_\pi v_\pi(s) \tag{1} \end{equation} 　　类似地，最优的策略也共享相同的最优动作价值函数，记为 $q_*$，定义为对于任意 $s \in \math…
Read more

Reinforcement Learning

Optimal Value Functions

[RL Notes] 最优策略

Author: nex3z 2019-10-18

1. 最优策略　　强化学习的任务是找出一个最优策略，使其能在长期过程中获得最大收益。可以通过价值函数来比较策略的优劣，对于策略 $\pi$ 和 $\pi’$，若策略 $\pi$ 在所有状态上的期望回报都大于等于策略 $\pi’$ 的期望回报，则称策略 $\pi$ 与策略 $\pi’$ 差不多或更好。$\pi \geq \pi’$ 当且仅当 $v_\…
Read more

Reinforcement Learning

Optiman Policy

[RL Notes] 贝尔曼方程

Author: nex3z 2019-10-17

1. 状态价值的贝尔曼方程　　考虑状态价值函数 \begin{equation} v_\pi(s) \doteq \mathbb{E}_\pi[G_t|S_t = s] \tag{1} \end{equation} 其中 $G_t$ 是 $t$ 时刻后的回报，对于持续性任务，使用折后回报，即 \begin{equation} G_t \doteq R_{t+1} + \gamma…
Read more

Reinforcement Learning

Bellman Equation

[RL Notes] 策略和价值函数

Author: nex3z 2019-10-16

1. 策略　　在 MDP 的每个时刻，智能体要在当前状态下选择要执行的动作，智能体根据状态选择动作的方式称为策略。更严格地，策略（policy）是从状态到选择每个动作的概率之间的映射。　　从一个状态映射到一个动作的策略称为确定性策略（deterministic policy）记做 \begin{equation} \pi(s) = a \tag{1} \end{equation} 其中 $\p…
Read more

Reinforcement Learning

Action-Value Function, State-Value Function

[RL Notes] 强化学习的目标

Author: nex3z 2019-10-15

1. 强化学习的目标　　在强化学习中，智能体的目标是最大化其收到的总收益，或者更具体地，最大化智能体收到的标量信号（收益）累计和的概率期望值。总收益是长期积累得到的，最大化总收益并不意味着最大化当前收益。 2. 分幕式任务　　在时刻 $t$，智能体要选择动作，以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$，我们希望…
Read more

Reinforcement Learning

Continuing Task, Episodic Task

[RL Notes] 马尔可夫决策过程

Author: nex3z 2019-10-15

1. 马尔可夫决策过程　　k 臂赌博机问题具有一些局限性：每次选择动作时的环境都是相同的，最优的动作保持不变，而且历史上作出的选择并不会影响到当前选择的动作的收益。在实际问题中，面对不同环境往往需要作出不同的选择，当下选择的动作会带来更长远的影响——影响未来环境（状态）和收益。　　马尔可夫决策过程（Markov decision processe，MDP）给出了序列决策问题的一个更一般的框架。…
Read more

Reinforcement Learning

MDP

[RL Notes] 基于置信度上界的动作选择

Author: nex3z 2019-10-14

由于我们使用收益的样本来估计动作的价值，因此在估计中存在不确定性。通过试探可以降低估计的不确定性，从而在未来做出更好的选择。前文提到的 $\varepsilon$ – 贪心算法以一定概率进行探索，即随机地选择动作，这是一种盲目的选择。一种更好的试探的方法是，选择最有潜力的非贪心动作。衡量一个动作有多大“潜力”，需要考量这个动作的估计有多接近最大值，以及估计的不确…
Read more

Reinforcement Learning

UCB

[RL Notes] 乐观初始值

Author: nex3z 2019-10-14

1. 乐观初始值　　在前文提到的学习算法中，如果一个动作 $a$ 从未被选择过，我们就无法根据历史数据去估计该动作的价值 $Q_t(a)$，此时需要为动作价值的估计设置一个初始值 $Q_1(a)$。这使得每个动作价值估计的初始值变成了一个需要配置的参数，通过选择合适的初始值，可以对试探和开发进行平衡。　　使用乐观的初始值有利于试探。如果动作价值估计的初始值大于动作的真实价值，则在学习的初期，选…
Read more

Reinforcement Learning

Optimistic Initial Value

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Monthly Archive: 10 月 2019

[RL Notes] 策略评估和控制

[RL Notes] 通过最优价值函数获得最优策略

[RL Notes] 最优价值函数

[RL Notes] 最优策略

[RL Notes] 贝尔曼方程

[RL Notes] 策略和价值函数

[RL Notes] 强化学习的目标

[RL Notes] 马尔可夫决策过程

[RL Notes] 基于置信度上界的动作选择

[RL Notes] 乐观初始值

Post navigation