Tag Archive: Continuing Task

[RL Notes] 强化学习的目标

Author: nex3z 2019-10-15

1. 强化学习的目标　　在强化学习中，智能体的目标是最大化其收到的总收益，或者更具体地，最大化智能体收到的标量信号（收益）累计和的概率期望值。总收益是长期积累得到的，最大化总收益并不意味着最大化当前收益。 2. 分幕式任务　　在时刻 $t$，智能体要选择动作，以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$，我们希望…
Read more

Reinforcement Learning

Continuing Task, Episodic Task

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31