学习目标
1.了解TD(0)进行预测
2.了解SARSA对策略的控制
3.了解Q-Learning以进行异策略控制
4.了解TD算法相对于MC和DP方法的优势
5.了解n步方法如何统一MC和TD方法
6.了解TD-Lambda的前后视图
总结
1.D-Learning是Monte Carlo和动态规划思想的结合。 像蒙特卡洛一样,根据样本工作,不需要环境模型。 像动态规划一样,TD使用 bootstrapping进行更新。
2.MC还是TD更好取决于问题,并且没有理论结果证明是明显的赢家。
Sarsa: On-policy TD Control
Q-learning: 异策略 TD 控制
强化学习的早期突破之一是异策略 TD控制算法的开发,该算法称为Q学习(Watkins,1989),其定义为:
(Qleft( {{S_t},{A_t}}
ight) leftarrow Qleft( {{S_t},{A_t}}
ight) + alpha left[ {{R_{t + 1}} + gamma mathop {max }limits_a Qleft( {{S_{t + 1}},a}
ight) - Qleft( {{S_t},{A_t}}
ight)}
ight])