强化学习值函数 - 走看看

zoukankan html css js c++ java

强化学习值函数

Gt = Rt + gamma * Rt+1 + gamma^2 *Rt+2 , 对未来要加一个折现率，未来预测值是有风险的，保守起见最好加个折扣。

状态St =s 的值为：

V(s) = E(Gt|St=s) , where Gt = Rt + gamma * Rt+1 + gamma^2 *Rt+2 + …

状态St=s，At=a时的值为：

Q(s,a) = E(Gt|St=s, At=a), where Gt = Rt + gamma * Rt+1 + gamma^2 *Rt+2 + …

on-policy TD算法：先从Q中（e-greedy）产生一个 S‘，A’，刚开始可能是随机的。后边根据S,A的分布占比来生成一个新状态s’，a‘.利用更新

Q(S,A) = Q(S,A) + alpha* [R + gamma* Q(S’,A’) - Q(S,A)].利用策略生成的状态，动作，去更新新的Q值。

off-policy TD算法：先在Q中（e-greedy）从S随机产生一个A，王更新

Q-learning中，在生成情节中，状态S和A是随机产生的，而在网络更新中，下一个状态选用了最优的A对应的状态S‘去更新。

Q(S,A) = Q(S,A) + alpha* [R + gamma* maxQ(S‘,a) - Q(S,A)].

查看全文

相关阅读:
getWritableDatabase()与getReadableDatabase()方法
 使用drawBitmapMesh扭曲图像
 移动游戏背景
 使用Matrix控制图片和组件的变化
 使用Matrix控制图像或组件变换的步骤
 1105: 零起点学算法12——求2个日期之间的天数
 1104: 零起点学算法11——求梯形面积
 1103: 零起点学算法10——求圆柱体的表面积
 1102: 零起点学算法09——继续练习简单的输入和计算（a-b)
1101: 零起点学算法08——简单的输入和计算（a+b)

原文地址：https://www.cnblogs.com/xinping-study/p/9049787.html

Copyright © 2011-2022 走看看