zoukankan      html  css  js  c++  java
  • 强化学习之博弈论——笔记

    名词解释:

    零和博弈:两人的分数相加为0,也是说一个人得分,另一个就减分。

    有限:也就是 数字 选择 深度等,不是无限大。他是有限制的,一个确定的数。

    确定性:状态 没有概率 随机转换,比如:执行某个动作,就一定会进入某个状态。

    完美信息:也就是状态可知,明确知道对方和自己所处的状态。

    因为 a 先走   b 跟在后边,一人一步。

    第一步:a 在状态1中可以选择 左和右 。

    第二步:然后该 b走了 b可以选择 状态2的  左,中,右 。

    第三步:又轮到a 可以选择 状态4的 左和右。  

    所以 a 的策略有 4个 ,b的策略有3个。

    把策略的可能写成一个矩阵。 如a在状态1走左,b在状态2走右,得分为7. 

    游戏规则是:

    a和b分别是两个玩家。 每个玩家都想得到最高的分数,

    每个叶子节点是a的分数,b的分数是a的相反数。也就是说 a的分数是7 b的分数就是-7. 因此 b的目的是让a的分数最低。

    于是两个玩家进行博弈。因为这是一场 零和博弈。因为每个人都是理智的,他们都为了追求自己的最大利益,分数会向中间平衡。最终博弈的结果是 红色的方块。

     迷你扑克牌游戏

      

    博弈值是 红色方块

     

     囚徒困境

    a和b不知道对方的状态

    出卖对方,比相互合作获得的利益更大

  • 相关阅读:
    poj2411 状压dp
    棋盘覆盖TYVJ1035(二分图最大匹配)
    poj3417
    无向图边双+缩点
    无向图点双+缩点
    bzoj1123(割点加路径统计)
    【BZOJ1178】会议中心(APIO2009)-贪心+倍增+set
    【BZOJ4650】优秀的拆分(NOI2016)-后缀数组+RMQ+差分
    【BZOJ4569】萌萌哒(SCOI2016)-并查集+倍增
    【BZOJ2208】连通数(JSOI2010)-SCC+DP+bitset
  • 原文地址:https://www.cnblogs.com/HL-blog/p/9078613.html
Copyright © 2011-2022 走看看