价值迭代 (Value Iteration)

zoukankan html css js c++ java

价值迭代 (Value Iteration)
转载自知乎

https://zhuanlan.zhihu.com/p/33229439

假设我们有一个3 x 3的棋盘：
- 有一个单元格是超级玛丽，每回合可以往上、下、左、右四个方向移动
- 有一个单元格是宝藏，超级玛丽找到宝藏则游戏结束，目标是让超级玛丽以最快的速度找到宝藏
- 假设游戏开始时，宝藏的位置一定是(1, 2)
这个一个标准的马尔科夫决策过程(MDP)：
- 状态空间State：超级玛丽当前的坐标
- 决策空间Action: 上、下、左、右四个动作
- Action对State的影响和回报 P(State', Reward | State, Action)：本文认为该关系是已知的
利用价值迭代 (Value Iteration) 求解马尔科夫决策过程

首先我们定义超级玛丽当前位置的价值 $V(state)$ ：从当前state = (x, y)开始，能够获得的最大化Reward的总和。

结合上图可以非常简单的理解价值迭代：
- 初始化：所有state的价值V(s) = 0
- 第一轮迭代：对于每个state，逐一尝试上、下、左、右四个Action
- 第二轮迭代：对于每个state，逐一尝试上、下、左、右四个Action
- 第三轮迭代：对于每个state，逐一尝试上、下、左、右四个Action
- 第四轮迭代：对于每个state，逐一尝试上、下、左、右四个Action
上面的迭代过程实际上运用了贝尔曼方程 (Bellman Equation)，对每个位置的价值进行更新

$V_*(s) = max_{a} sum_{s', r} p(s', r | s, a) [r + gamma V_*(s')]$

贝尔曼方程 (Bellman Equation)是非常好理解的 --- 状态s的价值V(s)由两部分组成：
- 采取action=a后带来的reward
- 采取action=a后到达的新的状态的价值V(s')
源码实现

下面的代码实现了一个Agent，价值迭代在optimize函数中实现，完整可运行jupyter notebook欢迎访问我的Github: whitepaper/RL-Zoo
class Agent: def __init__(self, env): self.env = env self.V = np.zeros(env.nS) def next_best_action(self, s, V): action_values = np.zeros(env.nA) for a in range(env.nA): for prob, next_state, reward, done in env.P[s][a]: action_values[a] += prob * (reward + DISCOUNT_FACTOR * V[next_state]) return np.argmax(action_values), np.max(action_values) def optimize(self): THETA = 0.0001 delta = float("inf") round_num = 0 while delta > THETA: delta = 0 print(" Value Iteration: Round " + str(round_num)) print(np.reshape(self.V, env.shape)) for s in range(env.nS): best_action, best_action_value = self.next_best_action(s, self.V) delta = max(delta, np.abs(best_action_value - self.V[s])) self.V[s] = best_action_value round_num += 1 policy = np.zeros(env.nS) for s in range(env.nS): best_action, best_action_value = self.next_best_action(s, self.V) policy[s] = best_action return policy
价值迭代的适用场景

使用价值迭代求解MDP问题时，需要满足一下条件：
- Action对State的影响和回报 P(State', Reward | State, Action)是已知的，然而绝大多数实际问题中P(State', Reward | State, Action)是未知的
- State和Action都是离散取值，无法应对Action或者State是连续取值的
- State和Action都是低维度离散取值，因为计算复杂度是随着维度的升高而迅速变大的—— O(|State| x |Action| x |State|)
查看全文

相关阅读:
ThinkPHP 中 where条件 or,and 同时使用
 mysql客户端 navicat 本地导入sql文件出错
 mysql查询出所有重复的记录
 JS返回上一页并刷新
 Jquery计算指定日期加上多少天、加多少月、加多少年的日期
 JS获取当前完整的url地址以及参数的方法
 PHP 计算两个时间戳之间相差的时间
 mysql左连接右连接（查询两张表不同的数据）
C++中的C
C++编程思想

原文地址：https://www.cnblogs.com/ccw95/p/13800933.html

价值迭代 (Value Iteration)

利用价值迭代 (Value Iteration) 求解马尔科夫决策过程

源码实现

价值迭代的适用场景