RL Notes

1. 基础

1.1. 序列决策

[RL Notes] K 臂赌博机

[RL Notes] 动作价值估计的增量更新

[RL Notes] 试探和开发

[RL Notes] 乐观初始值

[RL Notes] 基于置信度上界的动作选择

1.2. 马尔可夫决策过程

[RL Notes] 马尔可夫决策过程

[RL Notes] 强化学习的目标

1.3. 价值函数和贝尔曼方程

[RL Notes] 策略和价值函数

[RL Notes] 贝尔曼方程

[RL Notes] 最优策略

[RL Notes] 最优价值函数

[RL Notes] 通过最优价值函数获得最优策略

1.4. 动态规划

[RL Notes] 策略评估和控制

[RL Notes] 迭代策略评估

[RL Notes] 策略改进

[RL Notes] 策略迭代

[RL Notes] 广义策略迭代

[RL Notes] 动态规划的效率

2. 基于样本的学习方法

2.1. 蒙特卡洛预测和控制

[RL Notes] 蒙特卡洛方法和蒙特卡洛预测

[RL Notes] 蒙特卡洛控制

[RL Notes] epsilson 软性策略

[RL Notes] 离轨策略

[RL Notes] 重要度采样和离轨蒙特卡洛预测

[RL Notes] 加权重要度采样及增量实现

[RL Notes] 离轨策略蒙特卡洛控制

2.2. 时序差分预测

[RL Notes] 时序差分学习

[RL Notes] 时序差分学习——一个例子

[RL Notes] 时序差分学习的优势

2.3. 时序差分控制

[RL Notes] Sarsa:同轨策略下的时序差分控制

[RL Notes] Q 学习:离轨策略下的时序差分控制

[RL Notes] 期望 Sarsa

2.4. 规划、学习和行动

[RL Notes] 模型和规划

[RL Notes] Dyna 架构

[RL Notes] 不正确的模型

3. 基于函数逼近的预测和控制

3.1. 基于函数逼近的同轨预测

[RL Notes] 使用监督学习估计价值函数

[RL Notes] 同轨预测的目标

[RL Notes] 时序差分的目标

[RL Notes] 线性方法

3.2. 构造用于预测的特征

[RL Notes] 线性方法的特征构建

3.3. 基于函数逼近的控制

[RL Notes] 分幕式 Sarsa 的函数逼近

[RL Notes] 函数逼近中的试探

[RL Notes] 平均收益

3.4. 策略梯度

[RL Notes] 学习参数化策略

[RL Notes] 持续性任务的策略梯度

[RL Notes] 估计策略的梯度

[RL Notes] “行动器-评判器”方法