强化学习入门· - 走看看

zoukankan html css js c++ java

强化学习入门·

源地址 http://blog.csdn.net/supercally/article/details/54754787

2. 增强学习都有哪些策略

蒙特卡洛方法

简单而言，蒙特卡洛方法就是对这个策略所有可能的结果求平均。我们向前走了以后，再做一个action，根据这个式子，直到episode结束，求出收益的和，就是向前走这个动作的一个采样。我们再不断地在这个状态采样，然后来求平均。等到采样变得非常非常多的时候，我们的统计值就接近期望值了。所以蒙特卡洛方法是一个非常暴力，非常直观的方法。

查看全文

相关阅读:
HDU5914
HDU1087(dp)
HDU1711(KMP)
HDU1251(字典树)
HDU3068(Manacher算法)
POJ2187(旋转卡壳)
HDU1392(凸包)
CodeForces 722B
CodeForces 722A
CodeForces 721B

原文地址：https://www.cnblogs.com/CATHY-MU/p/7722960.html

Copyright © 2011-2022 走看看