Tag Archive: Supervised Learning

[RL Notes] 使用监督学习估计价值函数

Author: nex3z 2019-11-03

1. 参数化函数　　之前介绍的学习算法都是基于表格的，问题涉及的状态和动作空间都很小，价值函数可以用表格保存下载。而实际场景中，往往涉及大量的状态和动作，难以用表格来保存价值函数。　　除了用表格的方式，我们可以用任意实现状态到价值的映射的函数对价值函数进行估计，但如果仅仅是映射，每个状态对应一个固定的价值，就无法在学习过程中更新对价值进行更新。由此引入参数化的函数 \begin{equatio…
Read more

Reinforcement Learning

Parameterized Functions, Reinforcement Learning, Supervised Learning

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31