zoukankan      html  css  js  c++  java
  • Reinforcement Learning Qlearning 算法学习2 AI

    在阅读了Q-learning 算法学习-1文章之后。

    我分析了这个算法的本质。

    算法本质个人分析。

    1.算法的初始状态是随机的,所以每个初始状态都是随机的,所以每个初始状态出现的概率都一样的。如果训练的数量够多的

    话,就每种路径都会走过。所以起始的Q(X,Y) 肯定是从目标的周围开始分散开来。也就是目标状态为中心的行为分数会最高。

    如 Q(1,5)  Q(4,5)  Q(5,5)这样就可以得到第一级别的经验了。并且分数最高。

    Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

    R(state, action) 函数决定了只有在目标的周围才能产生初始的经验。

    然后扩散出来。

    Max[Q(next state, all actions)] 函数决定了选择最优的线路,目的是产生离目标最短的距离的级别,最小级别。

    2.当出现第一级别的经验之后,才能得到第二级别的经验。否则就得不到经验了。

    然后第二级别的经验会比第一级别的低一个比例,由Gamma决定。

    3.以此类推,第三级别的。第三级别的经验会比第二级别的低一个比例。也是由Gamma决定

    4.这样就得到了一个最短路径的结果。

     
     
  • 相关阅读:
    python 基础2
    ffmpeg安装和录制linux桌面图像
    Python TCP Socket 传输服务器资源信息(C/S)
    ubuntu下,hue3.7编译安装,设置中文语言
    Python 图片转字符画
    Python快速教程
    spark安装部署
    python基础之文件处理
    python之路之函数
    python习题
  • 原文地址:https://www.cnblogs.com/rebot/p/6810436.html
Copyright © 2011-2022 走看看