zoukankan      html  css  js  c++  java
  • 强化学习 Q-learning 及python实现

    Q-learning是强化学习中一种经典的无监督学习方法,通过与环境交互来指导学习;

    大部分强化学习都是基于马尔科夫决策(MDP)的。MDP是一个框架,而Q学习是应用了这种框架的一个具体的学习方法。

    Q学习的四要素:(agent,状态 s,动作 a,奖励 r)

    简而言之,agent从当前状态选择一个动作,转移至一个新的状态,这个过程会获得一个即时奖励 r,agent再据此更新动作值函数Q,并将Q值储存在Q表中。

    这里关键的有一个即时奖励矩阵R,和一个存储动作值函数值的Q表;两个表都是二维,行表示状态,列表示动作;

    Q学习中的Q值更新函数(其实基于MDP中的值函数):

    α:学习速率; γ:折扣因子 ,表示对未来奖励的重视程度;

    不过我个人而言,常用α=1的情况,因为α的值对于算法对比和优化的效果差别不大(在迭代次数足够多的情况下);

    一下这个小例子用的是动态规划的方法迭代计算Q,因为模型已知;模型未知的情况常采用蒙特卡洛算法 & 时序差分算法(TD,常用)

    简单的一个迷宫例子就是这个走迷宫了~从任意状态开始,走到房间5就算成功了~

      

    python实现Q学习走迷宫:

     1 # an example for maze using qlearning, two dimension
     2 import numpy as np
     3 
     4 # reward matrix R
     5 R = np.array([[-1, -1, -1, -1, 0, -1], [-1, -1, -1, 0, -1, 100],
     6      [-1, -1, -1, 0, -1, -1], [-1, 0, 0, -1, 0, -1],
     7      [0, -1, -1, 0, -1, 100], [-1, 0, -1, -1, 0, 100]])
     8 
     9 Q = np.zeros((6, 6), float)
    10 gamma = 0.8    # discount factor
    11 
    12 episode = 0
    13 while episode < 1000:
    14      state = np.random.randint(0, 6)    # from a random start state
    15      for action in range(6):
    16           if R[state, action] > -1:
    17                Q[state, action] = R[state, action] + gamma*max(Q[action])  # this time, action is the next state
    18      episode = episode + 1
    19 
    20 print(Q)
  • 相关阅读:
    Access操作必须使用一个可更新的查询
    SAP资料学习好地方
    Access关键词大全
    WPF零散笔记
    WPF:如何实现单实例的应用程序(Single Instance)
    WPF应用程序启动显示图片资源
    Drawable、Bitmap、Canvas和Paint的关系以及部分使用方法
    C#中一种可调用的异常处理方法
    easyui datagrid 点击列表头排序出现错乱的原因
    easyui datagrid 没数据时显示滚动条的解决方法
  • 原文地址:https://www.cnblogs.com/liubilan/p/13840057.html
Copyright © 2011-2022 走看看