Tag Archive: Supervised Learning

[RL Notes] 使用监督学习估计价值函数

Author: nex3z 2019-11-03

1. 参数化函数　　之前介绍的学习算法都是基于表格的，问题涉及的状态和动作空间都很小，价值函数可以用表格保存下载。而实际场景中，往往涉及大量的状态和动作，难以用表格来保存价值函数。　　除了用表格的方式，我们可以用任意实现状态到价值的映射的函数对价值函数进行估计，但如果仅仅是映射，每个状态对应一个固定的价值，就无法在学习过程中更新对价值进行更新。由此引入参数化的函数 \begin{equatio…
Read more

Reinforcement Learning

Parameterized Functions, Reinforcement Learning, Supervised Learning

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31