Tag Archive: Exploration

[RL Notes] 函数逼近中的试探

Author: nex3z 2019-11-09

1. 乐观初始值　　在表格型的方法中，使用乐观初始值有助于鼓励智能体在学习初期进行系统性的试探。类似的技巧也可以用在函数逼近的方法中，通过特定的权重初始化，使得输出乐观的价值。　　例如对于线性方法和二值特征，每个状态至少会激活一个特征，只需将权重初始化为可能得到的最大回报即可得到乐观的初始值。　　而对于如神经网络等的非线性方法，输出的价值是由输入的特征经过非常复杂的非线性计算得到的，就难以通…
Read more

Reinforcement Learning

Exploration, Reinforcement Learning

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31