Tag Archive: Average Reward

[RL Notes] 平均收益

Author: nex3z 2019-11-09

1. 折扣的问题　　在前文中给出了分幕式和持续性任务的目标，对于持续性任务，通过对未来的收益进行折扣来得到有限的回报，并通过折扣率来平衡短期的收益和长期的回报。　　考虑如图 1 所示的 MDP，在初始状态 $S$ 可以选择向左或者向右移动，之后的一系列确定的状态和动作，直到返回状态 $S$，然后再次面临选择。从 $S$ 向左移动到第一个状态会获得 $+1$ 的收益，从右边返回状态 $S$ 会获…
Read more

Reinforcement Learning

Average Reward, Reinforcement Learning

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31