[RL Notes] 离轨策略
1. 同轨策略和离轨策略 通过确保智能体不断地选择所有可能的动作,可以让智能体不断地进行试探,有两种方法可以达到这一点。 同轨策略(on-policy)方法使用相同的策略生成采样数据序列以及用于实际决策的待评估和改进的策略。前文中的蒙特卡洛试探性出发算法和 $\varepsilon$-软策略都属于同轨策略。$\varepsilon$-软策略不要求满足试探性出发的假设,但它在获得收益和在试探…
Read more
learn, build, evaluate
1. 同轨策略和离轨策略 通过确保智能体不断地选择所有可能的动作,可以让智能体不断地进行试探,有两种方法可以达到这一点。 同轨策略(on-policy)方法使用相同的策略生成采样数据序列以及用于实际决策的待评估和改进的策略。前文中的蒙特卡洛试探性出发算法和 $\varepsilon$-软策略都属于同轨策略。$\varepsilon$-软策略不要求满足试探性出发的假设,但它在获得收益和在试探…
Read more