Reinforcement Learning
一些说明:
学习增强学习整理的资料,所以纯粹为了学习和回顾!
感觉特别有用的是金溆林整理的系列,博客理论部分直接放链接了,打公式真的太麻烦了,或许以后有空在整理。
代码也只放了核心部分,和上面的理论一起看慢慢理解。
全部可运行的代码在github上
MDP(马尔科夫过程)
策略迭代
值迭代
蒙特卡洛方法
sarsa算法
q-learning算法
Deep Q Network(DQN)
DQN的变形
Policy Gradient(Reinforce算法)
Actor Critic
DDPG
A3C
TRPO
PPO/DPPO