[RL Notes] 强化学习的目标
1. 强化学习的目标 在强化学习中,智能体的目标是最大化其收到的总收益,或者更具体地,最大化智能体收到的标量信号(收益)累计和的概率期望值。总收益是长期积累得到的,最大化总收益并不意味着最大化当前收益。 2. 分幕式任务 在时刻 $t$,智能体要选择动作,以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$,我们希望…
Read more
learn, build, evaluate
1. 强化学习的目标 在强化学习中,智能体的目标是最大化其收到的总收益,或者更具体地,最大化智能体收到的标量信号(收益)累计和的概率期望值。总收益是长期积累得到的,最大化总收益并不意味着最大化当前收益。 2. 分幕式任务 在时刻 $t$,智能体要选择动作,以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$,我们希望…
Read more