zoukankan      html  css  js  c++  java
  • 中国mooc北京理工大学机器学习第三周(一):强化学习基础

    强化学习是程序或者智能体通过与环境不断地进行交互学习一个从环境到动作的映射,学习的目标使累计回报最大化。

    强化学习是一种试错学习,在各种状态选需要尽量尝试所有可以选择的动作,通过环境的反馈来判断动作的优劣,最终获得环境和最优动作的映射关系。

    (马尔可夫)MDP通常来描述一个强化学习问题,智能体根据当前环境的观察采取动作获得反馈,并使环境改变。

    在现实的强化学习任务中,很多条件不能获得,若学习不再依赖环境,则称为免疫模型学习,蒙特卡洛强化学习。

    Q-learning结合了动态规划和蒙特卡洛强化学习算法。

    深度强化学习(Deep Q Network)DQN是将神经网络和Q-learning结合起来。

    这课比较简单,科普类型的,在cs223和林轩田,andrew的课上有讲。

    以上。

    :)

  • 相关阅读:
    android-手势密码
    MS SQL 技巧总结--持续更新
    MySQL 笔记一
    spring 家族
    Java集合
    javaScript
    java 知识点随记
    MySQL 知识点随记
    odoo 权限杂记
    win10 Ubuntu子系统安装&odoo10社区版安装
  • 原文地址:https://www.cnblogs.com/deleteme/p/6937559.html
Copyright © 2011-2022 走看看