强化学习-Q-learning学习笔记 - 走看看

zoukankan html css js c++ java

强化学习-Q-learning学习笔记

Q学习动作探索策略中的ep-greepy,以ep的概率进行随机探索，以1-ep的概率以最大值策略进行开发，因为设定的迭代次数比较多，所以肯定存在一定的次数去搜索不同的动作。

1）Python版本

b站上的学习教程https://blog.csdn.net/qq_36124802/article/details/79882269，其中的pandas，np是数据处理包。使用其他语言也是可以的，用矩阵代替，主要是用多维矩阵保存数据，然后对矩阵进行计算处理。

2）c语言版本

https://blog.csdn.net/qq_23144435/article/details/80368635

3）C++版本

https://github.com/jinfagang/Q-Learning/blob/master/main.cpp

4）一个完整的unity demo项目，使用c# 语言

https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assets

查看全文

相关阅读:
MT【274】一道漂亮的不等式题
 MT【273】2014新课标压轴题之$ln2$的估计
 MT【272】更大的视野，更好的思路.
MT【271】一道三角最值问题
 MT【270】含参绝对值函数最大之二
 MT【269】含参函数绝对值最大
 MT【268】投篮第一次很重要
 国内下载Git的连接地址
 django 取model字段的verbose_name值
 Django报错(NoReverseMatch at /admin/)

原文地址：https://www.cnblogs.com/dingxiaoqiang/p/10421789.html

Copyright © 2011-2022 走看看