zoukankan      html  css  js  c++  java
  • Lecture 4: Model-Free Prediction

    1.Monte-Carlo Reinforcement Learning

       a)MC方法直接从经历中的episodes中学习

       b)MC方法是无模型的,

       c)从完整的episodes中学习:而不是走一步学学一步(bootstrapping)

       d)注意:只能将MC方法应用到episodic MDPs,而且所有的episodes必须终止。

    2.Temporal-Di↵erence Learning

       a)TD方法直接从经历中的episodes中学习

       b)MC方法是无模型的

       c) 从不完整的episodes中学习,by bootstrapping 

       d) TD从一个猜测中更新猜测

    3.TD能在获知最终结果前学习

       a) TD能在每步中在线学习

       b) MC必须等到一个episode结束才能获知最终结果

       TD能够在没有最终输出的过程中学习

         a) TD能够从不完整的雪猎中学习

         b) MC只能从完整的序列中学习

         c) TD 在连续的环境中工作

         d)MC只能在有终结序列的环境中工作

    4.   是 的无偏估计,

           

          

    5.TD利用了Markov属性,通常在Markov环境中更为有效

        MC没有利用Markov属性,通常在非Markov环境中更加有效

    6. TD( λ ) 与MC都只能用于完整的episodes

          

  • 相关阅读:
    JSP&JavaBean
    Cookie&&Session
    多个请求使用同一个 Servlet
    C3P0--数据库连接池
    navicat设置唯一键——unique
    J2EE常用组件简介
    JSP基础知识_3
    JSP基础知识_2
    JSP基础知识_1
    Android
  • 原文地址:https://www.cnblogs.com/--CYH--/p/6711059.html
Copyright © 2011-2022 走看看