Tag Archive: MDP

[RL Notes] 马尔可夫决策过程

1. 马尔可夫决策过程   k 臂赌博机问题具有一些局限性:每次选择动作时的环境都是相同的,最优的动作保持不变,而且历史上作出的选择并不会影响到当前选择的动作的收益。在实际问题中,面对不同环境往往需要作出不同的选择,当下选择的动作会带来更长远的影响——影响未来环境(状态)和收益。   马尔可夫决策过程(Markov decision processe,MDP)给出了序列决策问题的一个更一般的框架。…
Read more