zoukankan      html  css  js  c++  java
  • 强化学习基本概念

    在强化学习中,有这样几个概念:

      智能体(Agent):我们要操控的对象

      状态(State):当前智能体在环境中所处状态

      行为(Action):当前智能体在当前状态下要进行的下一个动作

      奖励(Reward):当智能体进行某一个操作时,对其该操作给出的评价

      策略(Policy):为达到目标(最大化奖励)所制定的一系列动作的组合

    需要注意的是,强化学习和机器学习的不同之处在于,机器学习只需要将数据准备好就可以让机器开始学习了,而强化学习过程中是一边决策一边学习,并且每一个动作都能影响智能体将来的状态,需要通过一个标量的奖励信号来衡量成功,从而达到最大化未来奖励的目标。

    强化学习的流程如图所示:

    现假设经验experience是observations、actions、rewards的一个集合(o1,a1,r1,……,ot,at,rt),那么,state就可以表示为state = f(experience);

    上图流程可理解为,一个智能体agent在执行完某个动作action之后,达到一个新的环境,并据此给出reward,从而形成新的状态state,agent再根据新的state进行下一个action,不断循环,达到学习的目的。

  • 相关阅读:
    delphi快捷键
    Delphi代码规范
    Hibernate通用Dao
    SpringData初探
    Windows下shell神器
    正则语法总结
    nodejs的npm命令无反应的解决方案
    JavaScript中,返回上一个页面时,如何保证上一个页面的不刷新?
    js上传图片
    正则匹配结果取反(正则中的前瞻,负向前瞻与后顾)
  • 原文地址:https://www.cnblogs.com/zdm-code/p/13872321.html
Copyright © 2011-2022 走看看