zoukankan html css js c++ java

马尔可夫决策过程中的动规

RL学习路线

记录强化学习入门的相关算法及实现。

DP Policy Evaluation

通过以下步骤进行同步backup，从而评估一个给定的 policy ：

在第 $k+1$ 轮，
对于所有状态 $sin S$，
更新
$v_{k+1}(s)=sum_{ainmathcal{A}}pi(a|s)(mathcal{R}_s^{a+gammasum_{s'inmathcal{S}}mathcal{P}_{ss'}}a v_k(s'))$
其中， $s'$ is a successor state of $s$

## 代码实现
def policy_eval(policy, env, discount_factor=1.0, theta=0.00001):
	# value function初始化为全0/随机数
    V = np.zeros(env.nS)
    
    while True:
        delta = 0
        
        # 对每个状态进行backup
        for s in range(env.nS):
            v = 0
            
            # 查找有可能的下一状态
            for a, action_prob in enumerate(policy[s]):
                # 对于每个动作，查找可能的下一状态
                for  prob, next_state, reward, done in env.P[s][a]:
                    # 计算预测值v
                    v += action_prob * prob * (reward + discount_factor * V[next_state])
                    
            # 获得所有状态下，最大的value function更新程度
            delta = max(delta, np.abs(v - V[s]))
            V[s] = v
            
        # 更新程度小于阈值时停止评估
        if delta < theta:
            break
            
    return np.array(V)

DP Policy Iteration

策略迭代的目标是获得最优策略，其步骤如下：

给定一个策略 $pi$，
评估 $pi$： $v_pi(s)=mathbb{E}[R_{t+1}+gamma R_{t+2}+...|S_t=s]$
贪心地改善 $pi$： $pi '=greedy(v_pi)$

其中，改善策略 $pi$ 的步骤如下：

给定一个策略 $pi$，且 $a=pi(s)$
首先改善策略： $pi '(s)=argmax_{ainmathcal{A}}q_pi(s,a)$
再改善值 from any state $s$ over one step:
$$
q_pi(s,pi '(s))=max_{ainmathcal{A}}q_pi(s,a)geq q_pi(s,pi(s))=v_pi(s)
$$
因此改善了value function，有 $v_{pi'}(s)geq v_pi(s)$（证明过程如下）
$$
egin{align}
v_pi(s)&leq q_pi(s,pi'(s))=mathbb{E}{pi'}[R{t+1}+gamma v_pi(S_{t+1})|S_t=s]
&leqmathbb{E}{pi'}[R{t+1}+gamma q_pi(S_{t+1},pi'(S_{t+1}))|S_t=s]
&leqmathbb{E}{pi'}[R{t+1}+gamma R_{t+2}+gamma^2 q_pi(S_{t+2},pi'(S_{t+2}))|S_t=s]
&leqmathbb{E}{pi'}[R{t+1}+gamma R_{t+2}+...|S_t=s]=v_{pi'}(s)
end{align}
$$

[理论上]当满足条件$q_pi(s,pi '(s))=max_{ainmathcal{A}}q_pi(s,a)= q_pi(s,pi(s))=v_pi(s)$（此时对任意状态s，都有$v_pi(s)=v_(s)$）时，停止improvement。
[实际中]定义一个阈值$epsilon$，当value function的更新程度 $leqepsilon$时，停止improvement*；或者，直接设定在k轮之后停止。

## 代码实现（policy_eval是前面的策略评估函数）
def policy_improvement(env, policy_eval_fn=policy_eval, discount_factor=1.0):
    # 初始化策略
    policy = np.ones([env.nS, env.nA]) / env.nA
    
    while True:
        # 评估当前策略
        V = policy_eval_fn(env, policy, discount_factor)
        # 若对策略进行了变动，则policy_stable为False
        policy_stable = True
        
        # 对每个状态
        for s in range(env.nS):
            # 选择在当前策略下可采取的最佳动作
            chosen_a = np.argmax(policy[s])
            
            # 向前一步寻找最佳动作
            action_values = np.zeros(env.nA)
            for a in range(env.nA):
                for prob, next_state, reward, done in env.P[s][a]:
                    action_values[a] += prob * (reward + discount_factor * V[next_state])
            best_a = np.argmax(action_values)
            
            # 贪心更新策略
            if chosen_a != best_a:
                policy_stable = False
            policy[s] = np.eye(env.nA)[best_a]
        
        # 找到了最优策略
        if policy_stable:
            return policy, V

DP Value Iteration

值迭代的目标也是获得最优策略，其步骤如下：

在第 $k+1$ 轮，
对于所有状态 $sin S$，
更新
$v_{k+1}(s)=max_{ainmathcal{A}}(mathcal{R}_s^{a+gammasum_{s'inmathcal{S}}mathcal{P}_{ss'}}a v_k(s'))$
其中， $s'$ is a successor state of $s$

Value Iteration (VI) 逆向地（从状态s'到s）循环处理整个状态空间，直到找到最优路径（即 a set of optimal actions）

Value更新在VI 中和在PE (Policy Evaluation) 中的区别在于：

根据上一段描述的VI过程，在VI中更新value不需要知道当前策略是什么，仅仅直接作用于value空间，所以贪心地用$max_{ainmathcal{A}}$；

而在PE中，因为目的是评估策略，value的更新是基于给定策略$pi$的，所以用$sum_{ainmathcal{A}}pi(a|s)$。

## 代码实现
def value_iteration(env, theta=0.0001, discount_factor=1.0):
    def one_step_lookahead(state, V):
        A = np.zeros(env.nA)
        for a in range(env.nA):
            for prob, next_state, reward, done in env.P[state][a]:
                A[a] += prob * (reward + discount_factor * V[next_state])
        return A
    
    V = np.zeros(env.nS)
    while True:
        # 停止更新的条件
        delta = 0
        # 对每个状态
        for s in range(env.nS):
            # 向前一步寻找最优动作的值（！注意这里是值，要和策略迭代区分开来）
            A = one_step_lookahead(s, V)
            best_action_value = np.max(A)
            
            # 获得所有状态下，最大的value function更新程度
            delta = max(delta, np.abs(best_action_value - V[s]))
            # 更新value function
            V[s] = best_action_value
        # 更新程度小于阈值时停止更新
        if delta < theta:
            break
    
    # 根据最优的value function得到policy
    policy = np.zeros([env.nS, env.nA])
    for s in range(env.nS):
        # 向前一步寻找最优动作
        A = one_step_lookahead(s, V)
        best_action = np.argmax(A)
        # 总是选择最优动作
        policy[s, best_action] = 1.0
    
    return policy, V

查看全文

相关阅读:
C#调用webservice 时如何传递实体对象
 Gridview实现突出显示某一单元格的方法
 oracle数据库存储过程分页
 GridView合并表头多重表头
 Gridview中实现求和统计功能
 C#封装的一个JSON操作类
 C#通过StreamWriter对象实现把数值内容写到记事本
 Android CTS
离线安装eclipse maven插件
 selenium2 页面对象模型Page Object

原文地址：https://www.cnblogs.com/atmacmer/p/8372050.html

最新文章
sql基础
 mybtis 基础
 springmvc
spring基础
 cookie和session
tomcat配置文件server.xml
http协议
 xml解析
 java socket编程
 JS堆栈与拷贝