zoukankan
html css js c++ java
Evaluation and Control -评估和控制
评估
估计/预测一个给定策略的奖励期望。
在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来评估一些反直觉的不同的策略会怎样做。这非常有用,因为我们不需要以测试的方式穷尽所有的策略。
控制
最优化:找到最佳的策略。
查看全文
相关阅读:
ORA00257 archiver error. 错误的处理方法
Eclipse快捷键大全
struts2 globalresults
oracle创建表空间
struts2 action中result参数详解
struts2小程序登录验证
清理系统垃圾文件 请命名为:*.bat
网上免费阅读的计算机编程书籍列表
eclipse+myeclipse+mysql+tomcat配置数据源
o(∩_∩)o...哈哈 somethingaboutJAVA
原文地址:https://www.cnblogs.com/wanghongze95/p/13842457.html
最新文章
tomcat 的用户,密码
linux命令0422
MySQL (一)
Myeclipse注册
今天是个好日子
Linux 安装
BackgroundWorker实现原理
领域驱动设计学习笔记 分层架构
HOW TO BE A GOOD LEADER
数据库设计14个技巧(转)
热门文章
领域驱动设计学习笔记 关联
领域驱动设计学习笔记 实体
Project Summary
How to use TFS API
[转载]你必须知道的.NET
领域驱动设计学习笔记 消化知识
Struts2拦截器的使用
Struts2中 No result defined for action com.test.action.LoginAction and result success
Struts2的类型转换
struts2类型转换Point
Copyright © 2011-2022 走看看