[RL Notes] 强化学习的目标
1. 强化学习的目标 在强化学习中,智能体的目标是最大化其收到的总收益,或者更具体地,最大化智能体收到的标量信号(收益)累计和的概率期望值。总收益是长期积累得到的,最大化总收益并不意味着最大化当前收益。 2. 分幕式任务 在时刻 $t$,智能体要选择动作,以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$,我们希望…
Read more
learn, build, evaluate
1. 强化学习的目标 在强化学习中,智能体的目标是最大化其收到的总收益,或者更具体地,最大化智能体收到的标量信号(收益)累计和的概率期望值。总收益是长期积累得到的,最大化总收益并不意味着最大化当前收益。 2. 分幕式任务 在时刻 $t$,智能体要选择动作,以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$,我们希望…
Read more
1. 马尔可夫决策过程 k 臂赌博机问题具有一些局限性:每次选择动作时的环境都是相同的,最优的动作保持不变,而且历史上作出的选择并不会影响到当前选择的动作的收益。在实际问题中,面对不同环境往往需要作出不同的选择,当下选择的动作会带来更长远的影响——影响未来环境(状态)和收益。 马尔可夫决策过程(Markov decision processe,MDP)给出了序列决策问题的一个更一般的框架。…
Read more