zoukankan
html css js c++ java
Evaluation and Control -评估和控制
评估
估计/预测一个给定策略的奖励期望。
在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来评估一些反直觉的不同的策略会怎样做。这非常有用,因为我们不需要以测试的方式穷尽所有的策略。
控制
最优化:找到最佳的策略。
查看全文
相关阅读:
Codeforces Round #526 (Div. 2) E. The Fair Nut and Strings
Codeforces Round #526 (Div. 2) D. The Fair Nut and the Best Path
S2SH项目实现分页功能
S2SH项目实现分页功能
HibernateDaoSupport类的使用
object references an unsaved transient instance
object references an unsaved transient instance
启动Tomcat报WEB-INFlibj2ee.jar jar not loaded异常的解决办法
启动Tomcat报WEB-INFlibj2ee.jar jar not loaded异常的解决办法
解决eclipse中出现Resource is out of sync with the file system问题
原文地址:https://www.cnblogs.com/wanghongze95/p/13842457.html
最新文章
经典博客3
python库(包)查找网站
poj3295
poj2996 模拟
poj2240最短路 floyd
poj1125最短路
poj2568
poj2109
poj1328贪心 雷达,陆地,岛屿问题
poj2965枚举
热门文章
位运算问题
poj1753枚举
Avito Cool Challenge 2018 A. B题解
Educational Codeforces Round 56 (Rated for Div. 2) ABCD
HDU3338:Kakuro Extension(最大流)
UVA10480:Sabotage(最小割+输出)
HDU3605:Escape(状态压缩+最大流)
HDU3081:Marriage Match II (Floyd/并查集+二分图匹配/最大流(+二分))
HDU2732:Leapin' Lizards(最大流)
HDU4289:Control(最小割)
Copyright © 2011-2022 走看看