Tag Archive: Exploration

[RL Notes] 函数逼近中的试探

1. 乐观初始值   在表格型的方法中,使用乐观初始值有助于鼓励智能体在学习初期进行系统性的试探。类似的技巧也可以用在函数逼近的方法中,通过特定的权重初始化,使得输出乐观的价值。   例如对于线性方法和二值特征,每个状态至少会激活一个特征,只需将权重初始化为可能得到的最大回报即可得到乐观的初始值。   而对于如神经网络等的非线性方法,输出的价值是由输入的特征经过非常复杂的非线性计算得到的,就难以通…
Read more