zoukankan      html  css  js  c++  java
  • 强化学习(1)----简

    1、介绍:强化学习是什么?

    假定一个智能体(agent),在一个未知的环境(environment)中处于当前状态(state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

    解决实际问题:明天去打球还是学习?(分类问题)

    如果打球(惩罚 -1),如果学习(奖励 +1)。

    2、强化学习方法汇总:

     

    3、强化学习包含:

    • 智能体(agent)
    • 状态(state)
    • 行为(action)
    • 奖励(reward)
    • 策略(policy)

     4、马尔科夫链(MDP):

     

    5、强化学习:

    当前价值Q = r【当前奖励】+γ【折扣因子】*max(下一步价值)

  • 相关阅读:
    避免多次提交
    Django 10
    Django 08
    Django 07
    Django 06
    Django 05
    Django 04
    Django 03
    Django 02
    Django 01
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9649247.html
Copyright © 2011-2022 走看看