Daily Archive: 2019-10-15

[RL Notes] 强化学习的目标

Author: nex3z 2019-10-15

1. 强化学习的目标　　在强化学习中，智能体的目标是最大化其收到的总收益，或者更具体地，最大化智能体收到的标量信号（收益）累计和的概率期望值。总收益是长期积累得到的，最大化总收益并不意味着最大化当前收益。 2. 分幕式任务　　在时刻 $t$，智能体要选择动作，以最大化未来的收益。记时刻 $t$ 后收到的收益序列为 $R_{t+1}, R_{t+1}, R_{t+3}, \cdots$，我们希望…
Read more

Reinforcement Learning

Continuing Task, Episodic Task

[RL Notes] 马尔可夫决策过程

Author: nex3z 2019-10-15

1. 马尔可夫决策过程　　k 臂赌博机问题具有一些局限性：每次选择动作时的环境都是相同的，最优的动作保持不变，而且历史上作出的选择并不会影响到当前选择的动作的收益。在实际问题中，面对不同环境往往需要作出不同的选择，当下选择的动作会带来更长远的影响——影响未来环境（状态）和收益。　　马尔可夫决策过程（Markov decision processe，MDP）给出了序列决策问题的一个更一般的框架。…
Read more

Reinforcement Learning

MDP

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31