马尔科夫模型（Markov）（MDP） - 走看看

zoukankan html css js c++ java

马尔科夫模型（Markov）（MDP）

马尔科夫模型主要元素有3个部分状态，动作，奖励。

对奖励的设置一定慎重，并且深谋远虑。如下图右侧：

绿色方块是生红色方块是死，游戏目的是使agent尽快到达绿色方块。

1：动作奖励正数过高，会使agent一直在方格世界里兜圈子，不想出去。因为这样每多走一步，都会获得正的奖励。

2：动作奖励负数过高，会使agent尽快想逃离这个世界，甚至直接走向红色方块，选择自杀。因为每一步损失都是巨大的，只能以最快的方式结束游戏。

奖励：代表着即时奖励和即时反馈

效用：代表长期奖励和长期反馈。

比如现在拿100块钱做投资，在一段时间过后得到了1000块。

这里的奖励是：负100块，效用是 1000块。

效用会影响当前的行动，效用非常高时，即使当前的奖励是负数的，依然继续下去。

　　　　　　　　　　　效用非常低时，即使当前看起来奖励很高，依然会停止行动。

真实效用：最优策略的效用，称为真实效用。

状态效用：在该状态获得的奖励+这个点上获得的所有奖励的折扣值

查看全文

相关阅读:
Spring读取properties内容
 SpringBoot全局异常处理
 Hibernate入门
 Oracle查询表及注释
 MySQL重复与不重复问题
 IDEA中other settings不见了
 01程序员修炼之道
 团队冲刺（四）
单词字母查询频率
 学习进度（9）

原文地址：https://www.cnblogs.com/HL-blog/p/9067269.html

Copyright © 2011-2022 走看看