zoukankan      html  css  js  c++  java
  • 强化学习(1)----简

    1、介绍:强化学习是什么?

    假定一个智能体(agent),在一个未知的环境(environment)中处于当前状态(state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

    解决实际问题:明天去打球还是学习?(分类问题)

    如果打球(惩罚 -1),如果学习(奖励 +1)。

    2、强化学习方法汇总:

     

    3、强化学习包含:

    • 智能体(agent)
    • 状态(state)
    • 行为(action)
    • 奖励(reward)
    • 策略(policy)

     4、马尔科夫链(MDP):

     

    5、强化学习:

    当前价值Q = r【当前奖励】+γ【折扣因子】*max(下一步价值)

  • 相关阅读:
    09-导入/导出
    django 登录
    python 数据结构
    Django 加密解密
    MySQL SQL语句
    libpython3.6m.so.1.0文件缺失
    环境变量配置
    Django 设置session过期时间
    Django 搜索功能
    表单校验
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9649247.html
Copyright © 2011-2022 走看看