强化学习基本概念 - 走看看

zoukankan html css js c++ java

强化学习基本概念

在强化学习中，有这样几个概念：

　　智能体（Agent）:我们要操控的对象

　　状态（State）:当前智能体在环境中所处状态

　　行为（Action）:当前智能体在当前状态下要进行的下一个动作

　　奖励（Reward）:当智能体进行某一个操作时，对其该操作给出的评价

　　策略（Policy）:为达到目标（最大化奖励）所制定的一系列动作的组合

需要注意的是，强化学习和机器学习的不同之处在于，机器学习只需要将数据准备好就可以让机器开始学习了，而强化学习过程中是一边决策一边学习，并且每一个动作都能影响智能体将来的状态，需要通过一个标量的奖励信号来衡量成功，从而达到最大化未来奖励的目标。

强化学习的流程如图所示：

现假设经验experience是observations、actions、rewards的一个集合（o1,a1,r1,……,ot,at,rt），那么，state就可以表示为state = f(experience);

上图流程可理解为，一个智能体agent在执行完某个动作action之后，达到一个新的环境，并据此给出reward，从而形成新的状态state，agent再根据新的state进行下一个action，不断循环，达到学习的目的。

查看全文

相关阅读:
Oracle- 表的自增长创建
 C#- 写Windows服务
 基于redis分布式缓存实现（新浪微博案例）
分布式集群系统下的高可用session解决方案
 Hibernate 缓存介绍
 MongoDB 安装（Window/Linux)
MongoDB 优点
 MongoDB 介绍
 浅析数据一致性
 mysql常用函数汇总

原文地址：https://www.cnblogs.com/zdm-code/p/13872321.html

Copyright © 2011-2022 走看看