zoukankan
html css js c++ java
Evaluation and Control -评估和控制
评估
估计/预测一个给定策略的奖励期望。
在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来评估一些反直觉的不同的策略会怎样做。这非常有用,因为我们不需要以测试的方式穷尽所有的策略。
控制
最优化:找到最佳的策略。
查看全文
相关阅读:
Redis入门--- 五大数据类型 ---String ,List
Redis入门 --- 安装
Netty 应用实例-群聊系统,心跳检测机制案例 ,WebSocket 编程实现服务器和客户端长连接
红锁的实现
基于Redis实现分布式锁
基于分布式锁 分布式全局唯一ID
Netty Java BIO 编程 (一)
Netty Java NIO 基本介绍Channel 和 buffer (二)
Java AIO 基本介绍
SpringBoot 系列教程自动配置选择生效
原文地址:https://www.cnblogs.com/wanghongze95/p/13842457.html
最新文章
Java第一天_基础类型的使用,选择循环判断
技术路线应该会的技术
Lc66_加一
Lc58_最后一个单词的长度
testNg使用
读volatile文章的自我理解
sec项目启动问题
Lc35_搜索插入位置
设计模式六大原则
zookeeper windows下搭建与检测
热门文章
windows 下的 cnosul的安装
关于gitlab的初次使用
mysql的解释计划
关于2020疫情春招面试总结(俩年经验,面24,收获20offer)
关于渗透的练习网站
Java之多态
Lc175_组合俩个表_二刷
Lc206_反转链表
Lc5345_ 通过投票对团队排名
Redis入门--- 五大数据类型 ---Set,Hash
Copyright © 2011-2022 走看看