zoukankan      html  css  js  c++  java
  • 机器学习十讲第十讲

    强化学习

    知识回顾

    • 机器学习方法

    1624635441149

    强化学习

    1624635488033

    马尔可夫决策

    1624635543749

    • S是离散状态;A可能是离散,也可能是连续的;P通常用来描述模型
    • 马尔可夫假设:状态不断转移,随着时间可以写成St→St+1→St+2,而在St+2这个时间段时若给定了St+1状态,那么它跟St及以前的状态是没有关系的。
    • 在马尔可夫决策过程中,最终需要求解一个策略,它是行动和状态之间的映射,分为确定性策略和随机性策略

    1624635658063

    • 目标

    1624635702670

    强化学习的方法分类

    1624635805753

    • 状态价值函数

    1624635858500

    • 状态-行动价值函数

    1624635889634

    QLearning

    1624635961545

    • 引入参数学习

    1624635989982

    • 基于策略方法

    1624636039106

    小结

    • 机器学习/数据科学的知识体系

    数学方面:微积分,概率论,优化方法,统计学

    计算机方面:python,数据结构与算法,数据库

    数据方面:数据采集,数据管理,数据清洗,数据可视化,分布平台(Hadoop,Spark,Flink)

    行业认识:对涉及的领域要有一定的理解,并将其他知识融入进去

    • 学习建议

    1624636130907

  • 相关阅读:
    我用自己做的图书比价搜索买了一本书
    2.17
    最近的工作
    FireBug的Bug
    2.18
    tecent面试题解答
    .net杂记
    python的round测试
    最近在网上买书的体会
    关于迅雷评论的一个改造html css
  • 原文地址:https://www.cnblogs.com/weixiao1717/p/14932987.html
Copyright © 2011-2022 走看看