中国mooc北京理工大学机器学习第三周（一）：强化学习基础 - 走看看

zoukankan html css js c++ java

中国mooc北京理工大学机器学习第三周（一）：强化学习基础

强化学习是程序或者智能体通过与环境不断地进行交互学习一个从环境到动作的映射，学习的目标使累计回报最大化。

强化学习是一种试错学习，在各种状态选需要尽量尝试所有可以选择的动作，通过环境的反馈来判断动作的优劣，最终获得环境和最优动作的映射关系。

（马尔可夫）MDP通常来描述一个强化学习问题，智能体根据当前环境的观察采取动作获得反馈，并使环境改变。

在现实的强化学习任务中，很多条件不能获得，若学习不再依赖环境，则称为免疫模型学习，蒙特卡洛强化学习。

Q-learning结合了动态规划和蒙特卡洛强化学习算法。

深度强化学习（Deep Q Network）DQN是将神经网络和Q-learning结合起来。

这课比较简单，科普类型的，在cs223和林轩田，andrew的课上有讲。

以上。

：）

查看全文

相关阅读:
Spring实现AOP的4种方式(转)
【转】一个不错的eclipse反编译插件
 spring配置事务
 使用XFire+Spring构建Web Service（一）——helloWorld篇
 WebService到底是什么？（转）
ContextLoaderListener作用详解（转）
SVN检出资源文件
 ExtJS4.2学习(21)动态菜单与表格数据展示操作总结篇2
WP8_当滚动到滚动条的70%时，自动加载数据效果实现
 WP8__从windowsphone app store 中根据app id获取应用的相关信息(下载网址及图片id等)

原文地址：https://www.cnblogs.com/deleteme/p/6937559.html

Copyright © 2011-2022 走看看