强化学习

zoukankan html css js c++ java

强化学习
模型从一无所知，到成为该领域的专业人士，又凭借其强大的计算能力，远远地甩开人类该领域的顶尖大师，模型能够学习规则和行为在于其背后有一个“好老师”，这位老师的使命不是上课，告知机器该怎么做，而是对机器的行为（policy network）进行打分和评判（value network），这样机器会记录如下：
- （高分区：高分，取得高分对应的行为）：努力取得高分；
- （低分区：低分，哪些行为容易取得低分）：竭力避免低分；
这样才能使机器的每一步选择都比较理想（分数导向性，类似于监督学习的标签数据），强化学习不同于监督学习的根本之处在于，强化学习不需要事先提供标记好的数据，它是通过一次次在环境中的尝试来获取数据和标签。

1. 强化学习方法
- 对所处环境有无理解将全部的强化学习方法分为：
  
  不理解环境：Model-free RL
  
  Q learning
  
  Sarsa
  
  Policy Gradients
  
  理解环境：Model-based RL，较之 Model-free 只是多了一道工序，为现实世界建模；
- 基于概率还是基于价值：
  
  Probability-based RL：未必固定，连续；
  
  Policy Gradients
  
  Value-based RL：比较固定，不连续；
  
  Q Learning
  
  Sarsa
  
  Actor-Critic：二者的结合，先获取概率，再对概率对应的决策进行打分；
- 根据更新方式：
  
  回合更新（Monte-carlo Update）：游戏开始，游戏结束，也即需要等待游戏的结束，才进行更新；
  
  单步更新（Temporal-difference Update）：不必等待游戏的结束，边玩游戏，边学习；
- 是否在线：
  
  on-policy
  
  off-policy：
  
  Q-learning
  
  Deep Q Network
查看全文

相关阅读:
python disable node
Spring拥有xml配置文件和JavaConfig并存的情况
 Spring拥有多个JavaConfig（@Configuration）的情况
 阿里腾讯极其看重的数据中台，我用大白话给你解释清楚了
 f5 force offline
JavaScript内存优化
 JavaScript内存优化
 JavaScript内存优化
 TreeMap分析(中)
TreeMap分析(中)

原文地址：https://www.cnblogs.com/mtcnn/p/9422366.html

1. 强化学习方法