RL Notes Author: nex3z 2021-01-01 主题 Contents1. 基础1.1. 序列决策1.2. 马尔可夫决策过程1.3. 价值函数和贝尔曼方程1.4. 动态规划2. 基于样本的学习方法2.1. 蒙特卡洛预测和控制2.2. 时序差分预测2.3. 时序差分控制2.4. 规划、学习和行动3. 基于函数逼近的预测和控制3.1. 基于函数逼近的同轨预测3.2. 构造用于预测的特征3.3. 基于函数逼近的控制3.4. 策略梯度 1. 基础 1.1. 序列决策 [RL Notes] K 臂赌博机 [RL Notes] 动作价值估计的增量更新 [RL Notes] 试探和开发 [RL Notes] 乐观初始值 [RL Notes] 基于置信度上界的动作选择 1.2. 马尔可夫决策过程 [RL Notes] 马尔可夫决策过程 [RL Notes] 强化学习的目标 1.3. 价值函数和贝尔曼方程 [RL Notes] 策略和价值函数 [RL Notes] 贝尔曼方程 [RL Notes] 最优策略 [RL Notes] 最优价值函数 [RL Notes] 通过最优价值函数获得最优策略 1.4. 动态规划 [RL Notes] 策略评估和控制 [RL Notes] 迭代策略评估 [RL Notes] 策略改进 [RL Notes] 策略迭代 [RL Notes] 广义策略迭代 [RL Notes] 动态规划的效率 2. 基于样本的学习方法 2.1. 蒙特卡洛预测和控制 [RL Notes] 蒙特卡洛方法和蒙特卡洛预测 [RL Notes] 蒙特卡洛控制 [RL Notes] epsilson 软性策略 [RL Notes] 离轨策略 [RL Notes] 重要度采样和离轨蒙特卡洛预测 [RL Notes] 加权重要度采样及增量实现 [RL Notes] 离轨策略蒙特卡洛控制 2.2. 时序差分预测 [RL Notes] 时序差分学习 [RL Notes] 时序差分学习——一个例子 [RL Notes] 时序差分学习的优势 2.3. 时序差分控制 [RL Notes] Sarsa:同轨策略下的时序差分控制 [RL Notes] Q 学习:离轨策略下的时序差分控制 [RL Notes] 期望 Sarsa 2.4. 规划、学习和行动 [RL Notes] 模型和规划 [RL Notes] Dyna 架构 [RL Notes] 不正确的模型 3. 基于函数逼近的预测和控制 3.1. 基于函数逼近的同轨预测 [RL Notes] 使用监督学习估计价值函数 [RL Notes] 同轨预测的目标 [RL Notes] 时序差分的目标 [RL Notes] 线性方法 3.2. 构造用于预测的特征 [RL Notes] 线性方法的特征构建 3.3. 基于函数逼近的控制 [RL Notes] 分幕式 Sarsa 的函数逼近 [RL Notes] 函数逼近中的试探 [RL Notes] 平均收益 3.4. 策略梯度 [RL Notes] 学习参数化策略 [RL Notes] 持续性任务的策略梯度 [RL Notes] 估计策略的梯度 [RL Notes] “行动器-评判器”方法 ← Previous post Next post →