zoukankan      html  css  js  c++  java
  • 博雅大数据机器学习十讲第十讲

    数学模型:马尔可夫决策过程((MDP))

    • 强化学习方法形式化为(MDP)(MDP)是序列决策算法的一般数学框架
    • 通常将(MDP)表示为四元组((S,A,P,R))
      • (S)表示状态空间,是描述环境的状态,表示为(S={s_1,s_2,s_3,...})
      • (A)表示行动空间,是智能体可执行的行动,表示为(A={a_1,a_2,a_3,...})
      • (P)表示状态转移概率,状态(s)转移到状态(s)的概率记为(P_a(s,s^{'})=p(S_{t+1}=s^{'}|S_t=s,A_t=a))
      • (R)表示奖励,是环境根据智能体的动作反馈的奖励,记为(R_a(s,s^{'})=E(r_t|S_t=s,A_t=a))

    策略

    • 在马尔可夫决策过程中,最终需要求解一个策略,它是行动和状态之间的映射,可分为确定性策略和随机性策略:
    • 确定性策略:(a=pi(s))
    • 随机性策略:(pi(s,a)=p(A_t=a|S_t=s))

    目标

    • 最大化累积奖励的期望,(t)时刻累积奖励的期望记为:(E(G_t|S_t=s)=E(sum^infty_{k=0}R_{t+k}|S_t=s))
    • 为保证目标收敛,引入折扣因子(gamma)(gammain(0,1)),最大化积累折扣奖励期望:

    [E(G_t|S_t=s)=E(sum^infty_{k=0}gamma^kR_{t+k}|S_t=s) ]

    状态价值函数

    • 策略下状态价值函数:处于状态(s),按照策略(pi)执行后可以获得的累积奖励的期望,记为(V_pi(s))

    [V_pi(s)=R_a(s,s^{'})+gammasum_{s^{'}}P_a(s,s^{'})V_pi(s^{'}) ]

    • 状态价值函数:处于状态(s),且按照最佳策略执行,能够获得的累积奖励的期望

    [V(s)=max_a(R_a(s,s^{'})+gammasum_{s^{'}}P_a(s,s^{'})V_pi(s^{'})) ]

    • 最优策略为:(argmax_a(R_a(s,s^{'})+gammasum_{s^{'}}p_a(s,s^{'})V_pi(s^{'})))

    • (Q_pi(s,a))的表达式为:(Q_pi(s,a)=sum_{s^{'}in S}P_a(s,s^{'})[R_a(s,s^{'})+gamma Q_pi(s^{'},a^{'})])

    • 最优的(Q)函数为:

    [Q(s,a)=sum_{s^{'}in S}P_a(s,s^{'})[R_a(s,s^{'})+gamma max_{a^{'}}( Q(s^{'},a^{'}))] ]

    • 有了(Q)函数,就可以用(pi(s)=argmax_aQ(s,a)),来求解出最佳策略

    深度强化学习

    • (Q-learning)中,当状态和行动空间是离散且维数不高是,用(Q-Table)储存每个状态行动对的(Q)值,可以实现行动决策。而当状态和行动空间是高维连续时,使用(Q-Table)不现实,例如雅达利游戏。

    图像修复

    • 设计多种(12种)图像修复工具,(DQN)比现有图像修复模型复杂度低,修复能力更优异
    • 工具的选择视为马尔可夫决策过程((MDP))
      • 行动((action)):每个行动表示使用某个修复工具
      • 状态((state)):输入图像和上一时刻行动估值向量
      • 奖励((reward)):图像峰值噪比的变化

    案例:

  • 相关阅读:
    微软不也是从Altair Basic这丑小鸭长成白天鹅吗?
    互联网创业应该如何找到创意
    互联网创业创意养成记1
    安卓CTS官方文档之兼容性方案概览
    跨平台移动应用开发是否真的是一个好选择?
    Ubuntu安装MyEclise16 过程差不多
    Ubantu下安装jdk 教程
    最近出错总结
    使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS
    关于最近学习出现的错误,及解决的想法
  • 原文地址:https://www.cnblogs.com/125418a/p/14473799.html
Copyright © 2011-2022 走看看