Reinforcement Learning Qlearning 算法学习2 AI - 走看看

zoukankan html css js c++ java

Reinforcement Learning Qlearning 算法学习2 AI

在阅读了Q-learning 算法学习-1文章之后。

我分析了这个算法的本质。

算法本质个人分析。

1.算法的初始状态是随机的，所以每个初始状态都是随机的，所以每个初始状态出现的概率都一样的。如果训练的数量够多的

话，就每种路径都会走过。所以起始的Q(X,Y) 肯定是从目标的周围开始分散开来。也就是目标状态为中心的行为分数会最高。

如 Q(1,5) Q(4，5) Q（5，5）这样就可以得到第一级别的经验了。并且分数最高。

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

R(state, action) 函数决定了只有在目标的周围才能产生初始的经验。

然后扩散出来。

Max[Q(next state, all actions)] 函数决定了选择最优的线路，目的是产生离目标最短的距离的级别，最小级别。

2.当出现第一级别的经验之后，才能得到第二级别的经验。否则就得不到经验了。

然后第二级别的经验会比第一级别的低一个比例，由Gamma决定。

3.以此类推，第三级别的。第三级别的经验会比第二级别的低一个比例。也是由Gamma决定

4.这样就得到了一个最短路径的结果。

查看全文

相关阅读:
07java基础知识
 06java基础知识
 我们都忽略了Html5的力量，如果只看成一种技术就大错特错了！
“微信应用号对行业影响”之一,app开发速来围观
 App开发中甲乙方冲突会闹出啥后果？H5 APP 开发可以改变现状吗
 开发APP不搞清楚这20个问题，必然沦为一场灾难
 H5 App设计者需要注意的21条禁忌
 H5 APP开发必读,20个你不知道的Html5新特征和窍门
 H5 App如此强悍，要降薪的恐怕已不只是iOS程序员
 关于APP，原生和H5开发技术的争论

原文地址：https://www.cnblogs.com/rebot/p/6810436.html

Copyright © 2011-2022 走看看