zoukankan
html css js c++ java
Evaluation and Control -评估和控制
评估
估计/预测一个给定策略的奖励期望。
在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来评估一些反直觉的不同的策略会怎样做。这非常有用,因为我们不需要以测试的方式穷尽所有的策略。
控制
最优化:找到最佳的策略。
查看全文
相关阅读:
osworkflow
用Flash做报表,推荐使用Flash饼图
ANT 发布项目中 build.xml 文件的详细配置
tomcat 修改java后不重启的方法
工厂方法(Factory Method)模式
NSRunLoop概述和原理
使用NSOperationQueue简化多线程开发
使用Grad Central Dispatch简化iPhone开发
进度显示例子学习
深入浅出 iOS 之多线程
原文地址:https://www.cnblogs.com/wanghongze95/p/13842457.html
最新文章
[转载]Windows SDK笔记
关于C#的续行符
[工具]Sql 导出到 Oracle
[转载]Unicode、ANSI、UTF8、Unicode Big Endian的故事
C#实现动态调用Windows DLL
HotKey Control For Windows Mobile
基于Windows Mobile 6的VirtualQueryEx函数实现。
Windows Mobile中实现从单个联系人的多个号码中选择号码的功能
IBM developerWorks
神州数码
热门文章
单元测试利器JUnit4
javascript函数库
简单工厂方法
精准的js和java日期正则表达式 2位小数金额
在Eclipse中集成Ant编程之配置祥解篇
jfreechart形成各种图
Singleton
显示项目根目录
tydk
SSH优缺点 Struts1和2的区别
Copyright © 2011-2022 走看看