zoukankan      html  css  js  c++  java
  • 强化学习基础概念理解


    RL原理:
    先尝试做出一些行为,得到一个结果,通过判断这个结果是对是错来对之前的行为进行反馈

    与supervised learning 的区别主要是:
    1. RL没有label指导在什么情况下做出什么样的行为,只有一个作出一系列行为后最终反馈回来的reward signal, 并通过这个signal判断这个行为是好是坏。
    2. RL的学习结果有延时,可能进行了几步判断之后才刚刚知道之前某步的选择是好是坏。
    3. RL的输入总是处于变化中的,而监督学习的输入是固定的(独立分布的)。
    4. RL不需要正确的输入/输出对,不需要精确校正优化的行为,它注重于在线规划,在exploration(探索未知)和exploitation(应用现有知识)之间平衡。

    RL Agent 包含:
    1. policy: agent's behavior function //策略: state 2 action 的映射
            有两种表达: 1)Deterministic policy 确定策略:某state下一定会执行行为a
                       2)Stochastic policy 随机策略: 某种state下执行某种行为a的概率
                       
    2. value function: how good is each state and/or action //价值函数: 预测可能获得的reward的期望,用以衡量当前state的好坏。

    3. model: agent's representation of the environment //模型: 预测环境下一步会发生什么变化,从而预测agent即将进入的state以及接收到的reward是什么。
                             包括预测下一步state的模型和下一步reward的模型。

    (它们并不一定同时存在)        


    RL是一种试错的学习方式(trial-and-error)。

    Exploration的含义:放弃一些已知的reward信息,而去尝试一些新的选择。
    Exploitation的含义:根据已知信息最大化reward。




  • 相关阅读:
    HDU6393(LCA + RMQ + 树状数组) n边图,两点最短距离 , 修改边权
    POJ 2763 (LCA +RMQ+树状数组 || 树链部分) 查询两点距离+修改边权
    HDU6396 (贪心+fread 挂)
    使用hadoop自带的例子作测试 笔记三
    hadoop的布暑方式 笔记二
    1 Hadoop原理介绍 笔记一
    ssh+flex
    openssh升级过程
    redhat5yum源配置
    struts2实现权限拦截
  • 原文地址:https://www.cnblogs.com/muhanxiaoquan/p/7251060.html
Copyright © 2011-2022 走看看