zoukankan      html  css  js  c++  java
  • 强化学习-Q-learning学习笔记

    Q学习动作探索策略中的ep-greepy,以ep的概率进行随机探索,以1-ep的概率以最大值策略进行开发,因为设定的迭代次数比较多,所以肯定存在一定的次数去搜索不同的动作。

    1)Python版本

    b站上的学习教程https://blog.csdn.net/qq_36124802/article/details/79882269,其中的pandas,np是数据处理包。使用其他语言也是可以的,用矩阵代替,主要是用多维矩阵保存数据,然后对矩阵进行计算处理。

    2)c语言版本

    https://blog.csdn.net/qq_23144435/article/details/80368635

    3)C++版本

    https://github.com/jinfagang/Q-Learning/blob/master/main.cpp

    4)一个完整的unity demo项目,使用c# 语言

    https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assets

  • 相关阅读:
    cogs 826. Feb11] GF打dota
    cogs 133. [USACO Mar08] 牛跑步 A*k短路算法
    luogu cogs 1437. [NOIP2013]转圈游戏
    RESTful
    中间件
    回顾基础知识,类,fbv,cbv
    Vue
    ES6的一些说明
    小试牛刀2
    小试牛刀
  • 原文地址:https://www.cnblogs.com/dingxiaoqiang/p/10421789.html
Copyright © 2011-2022 走看看