[RL Notes] 时序差分学习的优势
时序差分(TD)学习结合了动态规划(DP)和蒙特卡洛(MC)方法的关键思想,主要有以下优势: TD 像 MC 一样不需要环境模型,可以直接从经验中学习;而 DP 需要环境模型。 TD 像 DP 一样可以自举,而 MC 无法自举。 TD 可以在线增量地更新,DP 和 MC 都无法做到这一点。 TD 可以渐进地收敛到正确的预测值,而且通常收敛得比 MC 快。
learn, build, evaluate
时序差分(TD)学习结合了动态规划(DP)和蒙特卡洛(MC)方法的关键思想,主要有以下优势: TD 像 MC 一样不需要环境模型,可以直接从经验中学习;而 DP 需要环境模型。 TD 像 DP 一样可以自举,而 MC 无法自举。 TD 可以在线增量地更新,DP 和 MC 都无法做到这一点。 TD 可以渐进地收敛到正确的预测值,而且通常收敛得比 MC 快。
1. 题目 http://acm.timus.ru/problem.aspx?space=1&num=1183 1183. Brackets Sequence Time limit: 1.0 second Memory limit: 64 MB Let us define a regular brackets sequence in the following way: Empty seq…
Read more
1. 题目 http://acm.timus.ru/problem.aspx?space=1&num=1238 1238. Folding Time limit: 1.0 second Memory limit: 64 MB Bill is trying to compactly represent sequences of capital alphabetic characters fr…
Read more
1. 题目 http://acm.timus.ru/problem.aspx?space=1&num=1152 1152. False Mirrors Time limit: 2.0 second Memory limit: 64 MB Background We wandered in the labyrinth for twenty minutes before finally ent…
Read more
1. 题目 http://acm.timus.ru/problem.aspx?space=1&num=1039 1039. Anniversary Party Time limit: 0.5 second Memory limit: 8 MB Background The president of the Ural State University is going to make an …
Read more
1. 题目 http://poj.org/problem?id=1463 Strategic game Time Limit: 2000MS Memory Limit: 10000K Total Submissions: 7290 Accepted: 3379 Description Bob enjoys playing computer games, especially strategic g…
Read more
1. 题目 http://poj.org/problem?id=3624 Charm Bracelet Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 28195 Accepted: 12696 Description Bessie has gone to the mall’s jewelry store and s…
Read more
1. 题目 http://poj.org/problem?id=1384 Piggy-Bank Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 9043 Accepted: 4413 Description Before ACM can do anything, a budget must be prepared and the…
Read more