强化学习第2版第4章笔记——动态规划

zoukankan html css js c++ java

强化学习第2版第4章笔记——动态规划

　　动态规划(DP)是一类优化方法，在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下，其可以计算最优的策略。对于强化学习问题，传统的DP算法的作用有限。其原因有二：一是完备的环境模型只是一个假设

查看全文

相关阅读:
Flex 加载资源方式
 java在linux系统下开机启动无法使用sudo命令的原因
 Android SDK 1.5中文版 (Application基础—5)
还原ORACLE DUMP 的值
 JAVA操作windows共享目录
 [C++] 解释一下m_pfnCreateObject
Android SDK 1.5中文版 (Application基础—4)
O7_DICTIONARY_ACCESSIBILITY&REMOTE_OS_AUTHENT
Android SDK 1.5中文版 (Application基础—3)
Android SDK 1.5中文版 (Application基础—2)