博雅大数据机器学习十讲第十讲

zoukankan html css js c++ java

博雅大数据机器学习十讲第十讲
数学模型：马尔可夫决策过程((MDP))
- 强化学习方法形式化为(MDP)，(MDP)是序列决策算法的一般数学框架
- 通常将(MDP)表示为四元组((S,A,P,R))：
  
  (S)表示状态空间，是描述环境的状态，表示为(S={s_1,s_2,s_3,...})
  
  (A)表示行动空间，是智能体可执行的行动，表示为(A={a_1,a_2,a_3,...})
  
  (P)表示状态转移概率，状态(s)转移到状态(s)的概率记为(P_a(s,s^{'})=p(S_{t+1}=s^{'}|S_t=s,A_t=a))
  
  (R)表示奖励，是环境根据智能体的动作反馈的奖励，记为(R_a(s,s^{'})=E(r_t|S_t=s,A_t=a))
策略
- 在马尔可夫决策过程中，最终需要求解一个策略，它是行动和状态之间的映射，可分为确定性策略和随机性策略：
- 确定性策略：(a=pi(s))
- 随机性策略：(pi(s,a)=p(A_t=a|S_t=s))
目标
- 最大化累积奖励的期望，(t)时刻累积奖励的期望记为：(E(G_t|S_t=s)=E(sum^infty_{k=0}R_{t+k}|S_t=s))
- 为保证目标收敛，引入折扣因子(gamma)，(gammain(0,1))，最大化积累折扣奖励期望：
[E(G_t|S_t=s)=E(sum^infty_{k=0}gamma^kR_{t+k}|S_t=s) ]
状态价值函数
- 策略下状态价值函数：处于状态(s)，按照策略(pi)执行后可以获得的累积奖励的期望，记为(V_pi(s))：
[V_pi(s)=R_a(s,s^{'})+gammasum_{s^{'}}P_a(s,s^{'})V_pi(s^{'}) ]
- 状态价值函数：处于状态(s)，且按照最佳策略执行，能够获得的累积奖励的期望
[V(s)=max_a(R_a(s,s^{'})+gammasum_{s^{'}}P_a(s,s^{'})V_pi(s^{'})) ]
- 最优策略为：(argmax_a(R_a(s,s^{'})+gammasum_{s^{'}}p_a(s,s^{'})V_pi(s^{'})))
- (Q_pi(s,a))的表达式为：(Q_pi(s,a)=sum_{s^{'}in S}P_a(s,s^{'})[R_a(s,s^{'})+gamma Q_pi(s^{'},a^{'})])
- 最优的(Q)函数为：
[Q(s,a)=sum_{s^{'}in S}P_a(s,s^{'})[R_a(s,s^{'})+gamma max_{a^{'}}( Q(s^{'},a^{'}))] ]
- 有了(Q)函数，就可以用(pi(s)=argmax_aQ(s,a))，来求解出最佳策略
深度强化学习
- 在(Q-learning)中，当状态和行动空间是离散且维数不高是，用(Q-Table)储存每个状态行动对的(Q)值，可以实现行动决策。而当状态和行动空间是高维连续时，使用(Q-Table)不现实，例如雅达利游戏。
图像修复
- 设计多种（12种）图像修复工具，(DQN)比现有图像修复模型复杂度低，修复能力更优异
- 工具的选择视为马尔可夫决策过程((MDP))：
  
  行动((action))：每个行动表示使用某个修复工具
  
  状态((state))：输入图像和上一时刻行动估值向量
  
  奖励((reward))：图像峰值噪比的变化
案例：

无
查看全文

相关阅读:
Android绝黑剑之AutoCompleteTextView、MultiAutoCompleteTextView之智能联想
 F5 BIGIP负载均衡器配置实例与Web管理界面体验
 Java进阶之动态绑定
 某大型银行深化系统之二十：异常规范
 数据结构之排序
 数据结构之数组
 使用ssh来登录其它linux机器
 beanstalkc简易指令说明集
 ruby数组方法concat和push的区别
 uWSGI基础攻略

原文地址：https://www.cnblogs.com/125418a/p/14473799.html

博雅大数据机器学习十讲第十讲

数学模型：马尔可夫决策过程((MDP))

状态价值函数

深度强化学习

图像修复

案例：