zoukankan
html css js c++ java
Evaluation and Control -评估和控制
评估
估计/预测一个给定策略的奖励期望。
在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来评估一些反直觉的不同的策略会怎样做。这非常有用,因为我们不需要以测试的方式穷尽所有的策略。
控制
最优化:找到最佳的策略。
查看全文
相关阅读:
[Usaco2008 Nov]mixup2 混乱的奶牛
[Poi2004] 旅行问题
[洛谷P1278]单词游戏
redis20
redis19
redis18
OHC Java堆外缓存详解与应用
SQL优化
Mysql安装、字符、引擎设置
大文件下载
原文地址:https://www.cnblogs.com/wanghongze95/p/13842457.html
最新文章
Shell中单引号和双引号的区别
Hive(十三)【Hive on Spark 部署搭建】
Spark(十二)【SparkSql中数据读取和保存】
Spark(十三)【SparkSQL自定义UDF/UDAF函数】
Spark(十七)【SparkStreaming需求练习】
Spark(十六)【SparkStreaming基本使用】
java.lang.NoSuchMethodError: org.springframework.util.Assert.isTrue(ZLjava/util/function/Supplier;)V
Nginx 配置 HTTPS 完整过程(阿里云申请免费版一年ssl证书)
Spring Boot 对日期转换时间戳或字符串
【Blazor】ASP.NET Core Blazor目录
热门文章
【EFCore】利用Entityframework Core创建数据库模型
能用的免费测试的api接口不多了
CAP(eureka与zookeeper对比)
工作便利贴---Python年月日时分秒正则匹配
[AHOI2002]哈利-波特与魔法石
[SPOJ375]Qtree
[ZJOI2008] 树的统计Count
树链剖分入门(浅谈树链剖分)
Pku2441 Arrange the Bulls
[ACOI2020] 课后期末考试滑溜滑溜补习班(单调队列优化dp)
Copyright © 2011-2022 走看看