zoukankan      html  css  js  c++  java
  • 《众智科学》:博弈

    博弈论

    概念

    研究博弈论时,我们的目的是研究人们在不同的博弈环境下倾向于采取怎样的决策。

    基本要素
    • 参与者( 不少于两人,简单起见只考虑两人)
    • 策略集
    • 收益
    基本假设
    • 每个参与者都对博弈结构充分了解
    • 参与者之间无法交流,也不会考虑个人收益之外的因素
    • 每个参与者选择的策略都是为了达到自身收益最大化
    最佳应对

    ​ 假设S是参与者1采取的策略,T是参与者2采取的策略,记\(P_1(S,T)\)是参与者1在当前状况下取得的收益。设参与者1的其他策略组成集合\(S'\),若满足\(P_1(S,T)>=P_1(S',T)\),则称参与者1的策略S是参与者2的策略T的最佳应对。

    ​ 若满足\(P_1(S,T)>P_1(S',T)\),则称参与者1的策略S是参与者2的策略T的严格最佳应对。

    占优策略

    ​ 在最佳应对讨论的问题中,若参与者1有策略M,使得M对参与者2的每一种策略都是最佳应对,即无论参与者2选择何种策略,参与者1都能通过策略M取得最大收益,则称策略M是占优策略。同理,若M对参与者2的每一种策略都是严格最佳应对,则称策略M是严格占优策略。

    ​ 显然参与者会采取严格占优策略,但占优策略可能不止一个。如果存在多个潜在的占优策略,结果就难以预测。

    博弈类型

    在有限参与者和有限策略集的情况下,博弈总会存在均衡。 ——纳什

    纳什均衡——博弈双方都无严格占优策略

    若参与者1选择策略S,参与者2选择策略T,且S是T是最佳应对,T也是S的最佳应对,则策略组\((S, T)\)是一个纳什均衡。

    此时,任何参与者都没有动机改变策略,因此系统处于均衡的状态中。

    考试临近,由于时间紧迫,同一小组的学生A和学生B两人都必须独立作出决定:是复习考试,还是准备报告。不同方案的最终成绩如下:

    (学生A,学生B) 复习 报告
    复习 (88, 88) (86, 92)
    报告 (86, 92) (90, 90)

    对于学生A,如果学生B选择报告,则他应该选择复习以取得最大收益(92分);如果学生B选择复习,则他应该选择复习以取得最大收益(88分)。学生B同理。因此纳什均衡为(复习,复习)。

    有些博弈中存在一个以上的纳什均衡,称为多重均衡。以下是一些多重均衡的例子。

    协调博弈

    两个参与者的目标是策略上的协调,也就是二者采取同样的策略时双方收益都最大。此时存在多个纳什均衡。

    托马斯·谢林指出,由于社会习俗等与博弈本身无关的自然原因,参与者的选择会集中在某一个纳什均衡上。

    假设你与队友合作展示项目,双方已经做好了分工,但无法联系。你必须决定是用PowerPoint还是Keynote来制作幻灯片。如果你们使用同样的软件制作,幻灯片就容易合并,否则就难以合并,甚至需要重新制作。

    如果你事先知道你的队友使用Windows系统,而且你也是Windows系统,显然你应该用PowerPoint制作。

    猎鹿博弈(协调博弈的变式)

    两个猎人外出打猎,若他们合作,则可以打到鹿;若他们单独行动,则只能打到兔。若其中一个猎人想猎鹿而另一个想猎兔,猎兔的猎人仍能得到兔,但猎鹿的猎人一无所获。

    (猎人1, 猎人2) 猎鹿 猎兔
    猎鹿 4, 4 0, 3
    猎兔 3, 0 3, 3
    鹰鸽博弈(又称懦夫博弈)

    两只动物同时得到了一堆食物,它们可以选择争夺食物(鹰派策略)或分享食物(鸽派策略)。若两只动物都选择分享,它们均匀分配食物,各得到3;若其中一只选择争夺,另一只选择分享,争夺方能得到5,分享方只能得到1;若两只动物都选择争夺,混战会给它们带来损失,二者都得到0.

    (动物1, 动物2) 争夺 分享
    争夺 0, 0 5, 1
    分享 1, 5 3, 3

    鹰鸽博弈中存在两个纳什均衡(鹰,鸽)和(鸽,鹰)。在没有充分掌握两只动物的情况时,无法预测哪种均衡会形成。

    有些博弈中不存在纳什均衡,此时通过引入随机性来扩大参与者的策略集,进而预测策略。纳什指出,在有限参与者和有限策略集的情况下,博弈总会存在均衡。与此相关最简单的一类博弈称为攻防博弈。

    混合策略:攻防博弈

    两名参与者分别为进攻方和防守方。他们分别有两种策略可以采用。若防守方采取的策略正好对上进攻方的策略,则防守方收益大;否则进攻方收益大。

    两参与者各持一枚硬币,同时展示该硬币。若两硬币朝向相同,参与者1赢得参与者2的硬币;反之,参与者2赢得参与者1的硬币。

    (人1, 人2)
    1, -1 -1, 1
    -1, 1 1, -1

    此类博弈中参与者的总收益是0,称为零和博弈。

    现在向硬币博弈中引入随机性,参与者1有概率p选择正面,概率(1-p)选择反面(0<p<1). 同理,参与者2有概率q选择正面, 概率(1-q)选择反面(0<q<1). 此时我们可以计算出参与者1的收益期望:

    参与者1选择正面:\(E_H=q-(1-q)=2q-1\) 参与者1选择反面:\(E_T=1-q-q=1-2q\)

    显然,若\(E_H≠E_T\), 参与者1就有理由选择收益更大的策略,而参与者2也可以据此选择收益更大的策略。因此每个参与者都应该随机化自己的行为,即令\(P_H=P_T\)。此时\(2q-1=1-2q,\ q=0.5\),形成混合策略均衡。

    帕累托最优

    当每个参与者都从一个策略集中选择了一个策略,且不存在其他策略使所有参与者都得到至少和目前一样高的回报,且至少一个参与者能得到严格较高的回报,此时这组策略选择成为帕累托最优。

    然而,如同上文中的考试问题,(报告,报告)、(报告,复习)、(复习,报告)都是帕累托最优,但(考试,考试)却是唯一的纳什均衡。即使参与人双方都知道存在另一个更优策略,除非有强有力的协议,否则也无法更换为更优策略。

    社会最优

    若一组策略选择使得参与者的回报之和最大,称为社会福利最大化(或社会最优)。

    社会最优也一定是帕累托最优。纳什均衡和社会最优可能一致。

    网络结构中的博弈
    • 布雷斯悖论:网络中增加新的连接后反而可能使均衡状态的性能受损

      流量模式:每个司机作出的路线选择;社会成本:所有司机使用该流量模式时产生的行程时间总和

      解决方案:封路、收费

    • 拍卖

  • 相关阅读:
    367 Valid Perfect Square 有效的完全平方数
    365 Water and Jug Problem 水壶问题
    363 Max Sum of Rectangle No Larger Than K 最大矩阵和不超过K
    357 Count Numbers with Unique Digits 计算各个位数不同的数字个数
    SpringBoot (四) :thymeleaf 使用详解
    SpringBoot(三) :Spring boot 中 Redis 的使用
    SpringBoot(二) :web综合开发
    SpringBoot (一) :入门篇
    程序员最核心的竞争力是什么?
    Java面试题:多继承
  • 原文地址:https://www.cnblogs.com/kamigen/p/14872797.html
Copyright © 2011-2022 走看看