zoukankan      html  css  js  c++  java
  • 强化学习

    模型从一无所知,到成为该领域的专业人士,又凭借其强大的计算能力,远远地甩开人类该领域的顶尖大师,模型能够学习规则和行为在于其背后有一个“好老师”,这位老师的使命不是上课,告知机器该怎么做,而是对机器的行为(policy network)进行打分和评判(value network),这样机器会记录如下:

    • 高分区:高分,取得高分对应的行为):努力取得高分;
    • 低分区:低分,哪些行为容易取得低分):竭力避免低分;

    这样才能使机器的每一步选择都比较理想(分数导向性,类似于监督学习的标签数据),强化学习不同于监督学习的根本之处在于,强化学习不需要事先提供标记好的数据,它是通过一次次在环境中的尝试来获取数据和标签。

    1. 强化学习方法

    • 对所处环境有无理解将全部的强化学习方法分为:

      • 不理解环境:Model-free RL
        • Q learning
        • Sarsa
        • Policy Gradients
      • 理解环境:Model-based RL,较之 Model-free 只是多了一道工序,为现实世界建模;
    • 基于概率还是基于价值:

      • Probability-based RL:未必固定,连续;
        • Policy Gradients
      • Value-based RL:比较固定,不连续;
        • Q Learning
        • Sarsa
      • Actor-Critic:二者的结合,先获取概率,再对概率对应的决策进行打分;
    • 根据更新方式:

      • 回合更新(Monte-carlo Update):游戏开始,游戏结束,也即需要等待游戏的结束,才进行更新;
      • 单步更新(Temporal-difference Update):不必等待游戏的结束,边玩游戏,边学习;
    • 是否在线:

      • on-policy
      • off-policy:
        • Q-learning
        • Deep Q Network
  • 相关阅读:
    SpringData概述
    运行javac 报告javac不是内部或外部命令,但是运行java、java-version正常
    Spring Data JPA
    spring-data-jpa 介绍 复杂查询,包括多表关联,分页,排序等
    Thymeleaf使用说明
    Specifications查询
    OA项目_环境搭建
    anu
    anu
    anu
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9422366.html
Copyright © 2011-2022 走看看