zoukankan      html  css  js  c++  java
  • 「博弈论」耶鲁大学公开课笔记

    入门结论

    1.不要选择严格劣势策略(不管对方选择什么,你的选择都比另一个选择更劣)

    2.理性选择导致次优结果

    3.汝欲得之,必先知之(知道你的目的

    4.学会换位思考对手

    5.耶鲁大学学生都是自私鬼(娱乐向

    经典案例:囚徒困境

    [egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & 3,-1 \ β & -3,1 & 1,1 \ end{array}]

    如上选择及打分条件(每个位置前一个数字是(A)得分,后一个是(B)得分),那么(A)(B)的最优策略应该选(α),因为无论对方选什么,选(α)都比选(β)收益更大

    得出了结论(1):不要选择严格劣势策略

    大家都选(β)每人都能得到(1)分,但因为心理黑暗等原因理性的人们趋向于选(α),所以结论(2):理性选择导致次优结果

    若你是(A),由于情绪、喜好等因素,你眼中的得分变成了如下情况

    [egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & -1,-3 \ β & -3,-1 & 1,1 \ end{array}]

    此时你要做出选择的话,要先知道自己的选择在考虑了各种因素后的最终收益(表2),而不是开始时给出的表面收益(表1)

    结论(3):汝欲得之,必先知之

    若你的对手没有心,它的表仍然是(1),而你是善良美少女,你的表已经变成了(2),那么在你的对手眼中,评分表如下:

    [egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & 3,-3 \ β & -3,-1 & 1,1 \ end{array}]

    此时你的对手一定会选择(α)

    在你的眼中,评分表如下:

    [egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & -1,-1 \ β & -3,1 & 1,1 \ end{array}]

    由于你知道你的对手没有心,必定会选择(α),那么为了让自己收益更高,你也应该选择(α),结论(4):学会换位思考对手

    博弈要素

    参与人(表述法)(i)、策略(s_i),策略集合(S_i),某一次博弈(s),策略组合(某次博弈中所有人的策略)、收益(U_i(s))

    (s-i) 除了(i)之外所有人的策略

    严格优势策略:(U(s_i,s-i)>U(s_{i'},s-i))对所有(s-i)成立

    弱优势:(U(s_i,s-i)≥U(s_{i'},s-i))对所有(s-i)成立,(U(s_i,s-i)>U(s_{i'},s-i))对至少一个(s-i)成立

    共同知识

    数字游戏:在(1—100)中选择一个数字写下,最接近所有人写下数字的平均数的(frac{2}{3})的人可以获得奖励

    那么在任何情况下,(67)以上的数字都不应该被选择,因为他们是严格劣势策略

    如果你是理性的,而且你知道和你同台竞技的人都是理性的,那么(67)以上的数字已经出局了,现在再审视这个游戏,(45)以上的数字同样不应该被选择

    在进行迭代剔除后,最后理性人之间的游戏应该都选择(1)

    在这个游戏中,剔除(45)以上数字的前提是,你知道(67)以上的数字不应该选,你知道你的同伴是理性的他们不会选(67)以上的数字,你的同伴知道你是理性的不会选(67)以上的数字,你知道你的同伴知道你是理性的……

    我们称这种相互知道的事情为共同知识

    注意以下情况:

    给两个人分别戴上一顶粉色帽子,每个人能看见对方帽子颜色但不能看见自己的,那么,游戏中至少有一顶粉色帽子是共同知识吗?

    实际上不是

    因为比如(A)知道(B)是粉色帽子,他知道游戏中至少有一顶粉色帽子这个事实,但是他也许会认为自己是一顶蓝帽子,他会认为(B)因为只能看到自己的蓝帽子而不认为游戏中至少有一顶粉色帽子,所以(A)知道而(A)不能确定(B)知道的事情不是共同知识

    迭代剔除与中位选民定理

    有两个候选人与十种立场(1——10),每个立场有(10\%)支持,每个立场的支持者会支持与他们立场最相近的候选人,候选人如何选择立场使得自己获得的选票更多?

    容易发现立场(2)相比与立场(1)来说,是一个弱优势策略,相比之下我们是不会选择立场(1)的(立场(10)同理)

    在剔除了立场(1)的选择之后,我们发现立场(3)相较立场(2)又是一个弱优势策略,我们同样不会选择立场(2)

    要注意的是这个假设是建立在立场(1)已经排除的情况下,否则若立场(1)未被排除,在对手选择立场(1)的情况下立场(2)要优于立场(3),也就是要确保立场(1)是劣势策略是共同知识

    在迭代剔除后,我们的选择只剩下了立场(5)(6)

    这是中位选民定理,越中立的候选人越能获得大多数支持

    现实中影响因素很多,不完全符合模型

    但并不意味着模型是无意义的,我们可以通过添加因素看看模型预测结果的变化,来理解因素对结果的影响是如何体现的

    最佳对策

    (1.)

    参与人(i)的策略(hat{s_i})是对手的策略(S-i)的最佳对策((BR)

    (U(hat{s_i},S-i)≥U(s_{i'},S-i))对参与人的所有(s_{i'})都适用

    (hat{s_i}—>max{U(s_i,S-i)})

    (2.)

    参与人(i)的策略(hat{s_i})是对对手的可能采取的策略(P)时的最佳对策((BR)

    (EU(hat{s_i},P)≥EU(s_{i'},P))对参与人的所有(s_{i'})都适用

    (hat{s_i}—>max{EU(s_i,P)})

    不要选择非最佳对策的策略

    例如:

    [egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 9,-9 & 4,-4 \ β & 6,-6 & 6,-6 \ γ & 4,-4 & 9,-9 \ end{array}]

    函数

    可以发现在对手的任何策略下,(β)都不是最佳对策,所以(β)应该被排除

    纳什均衡

    假设一家公司利润两人平分,每个人可以选择为公司贡献(s=[0,4])的工作时间(注意此处的策略是连续的,可以选择(0)(4)间的任何数字)

    公司总收益为(w=4*(s_1+s_2+b*s_1*s_2))

    若无(b*s_1*s_2)项,合作将无意义

    收益:(U_1=(s_1,s_2)=frac{w}{2}),成本(s_1^2)

    由于决策连续,我们不能对每个决策列出一条曲线

    (U(s_1,s_2)=2(s_1+s_2+b*s_1*s_2)-s_1^2)

    求导

    (U'=2(1+b*s_2)-2hat{s_1}=0)

    为了确定它是最大值还是最小值需要求二阶导

    (U''=-2<0)说明上述是最大值

    解出一阶导

    (hat{s_1}=1+b*s_2=BR_1(s_2))

    同理

    (hat{s_2}=1+b*s_1=BR_2(s_1))

    假设此时(b=frac{1}{4})

    (hat{s_1}=1+frac{s_2}{4}=BR_1(s_2))
    (hat{s_2}=1+frac{s_1}{4}=BR_2(s_1))

    对二者列出函数

    根据不要选非最佳对策,任何人都不会选择小于(1)和大于(2)的部分

    所以我们的视线缩小到1*1范围的框内

    在迭代剔除后,最终的最佳对策是两函数交点

    (hat{s_1*}=hat{s_2*}=frac{1}{1-b})

    交点被称作纳什均衡点

    任何人都不愿意偏离纳什均衡点

    在偏离纳什均衡点的过程中,比如上述合作,偏离的越远,那么玩家的边际效应递减

    有时结果会趋近纳什均衡点

    如我们多次玩猜数字游戏,在不提及纳什均衡点的前提下,结果会不断趋近(1)

    正式定义:

    纳什均衡((NE))

    一个策略集合(S=(s_1*,s_2*……s_m*))对于任意参与其中的玩家(i)所选择的策略(s_i*)是其他参与人所选策略的最佳对策((S*-i))

    实施纳什均衡的动机(听不懂)

    (1.)不后悔

    (2.)纳什均衡可以被想象成自我实施的信念(几个人都认为事情会向纳什均衡发展,那么事情就一定会向纳什均衡发展)

    找纳什均衡点:

    [egin{array}{c|lcr} A/B & ext{a} & ext{b} & ext{c} \ hline α & 0,2 & 2,3 & 4,3 \ β & 11,1 & 3,2 & 0,0 \ γ & 0,3 & 1,0 & 8,0 \ end{array}]

    (BR(a)=β,BR(b)=β,BR(c)=γ)
    (BR(α)=c,BR(β)=b,BR(γ)=a)

    那么((b,β))是纳什均衡点,因为在这一点,两个玩家都选择了最佳对策

    严格劣势策略不会出现在纳什均衡里,弱劣势策略不一定

    投资博弈

    先猜后证:人数很多 策略不多

    预测:如果一开始投资概率超过阈值,那么博弈将会趋近于较优的纳什均衡,如果一开始低于阈值,那么博弈将会趋近于较劣的纳什均衡

    但较劣的纳什均衡和囚徒困境不同,因为这里 没有严格劣势策略

    协调博弈,如果协调成功就到了较优的纳什均衡没有人会反悔,但经常有协调谬误

    银行挤兑:

    银行有两种纳什均衡,较优均衡是大家对银行有信心而存钱

    较劣均衡是人们对银行失去信心疯狂提款

    协同谬误不同,仅凭沟通而非合同就可以改善结果

    交流可以改变纳什均衡,约束才能改变囚徒困境

    这和领导力紧密联系,协调博弈是领导力的用武之地

    在投资中别人越投资你就越想投资

    这种别人付出越多你就付出越多的博弈叫做策略互补博弈

    性别大战

    [egin{array}{c|lcr} A/B & ext{a} & ext{b} & ext{c} \ hline a & 2,1 & 0,0 & 0,-1 \ b & 0,0 & 1,2 & 0,-1 \ c & -1,0 & -1,0 & -2,-2 \ end{array}]

    (c)电影是严格劣势策略

    而两人都看(a)(b)电影都是纳什均衡

    这是一个每参与者爱好不同的纳什均衡,这很容易导致协调失败

    古诺双寡头模型

    前提:学习过怎么在参与者较少且策略不多的博弈中找到纳什均衡

    这个博弈介于经济学导论的两种极端情况之间:完全竞争和垄断

    研究市场如何发展 对消费者有利还是生产者有利

    策略:同质商品的产量,连续,用(q)来表示策略

    生产成本(:c*q),边际成本是常数(c)

    市场价格(:p=a-b(q_1+q_2))

    利润(:w=p*q_1-c*q_1=aq_1-bq_1^2-bq_1q_2-cq_1)

    (2)的生产数量确定时我们要找出(1)的最佳产量

    求导后令导数等于零之类的

    (hat{q_1}=frac{a-c}{2b}-frac{q_2}{2})
    (hat{q_2}=frac{a-c}{2b}-frac{q_1}{2})

    边际收入等于边际成本的那点是垄断产量

    根据纳什均衡定义大力找函数交点

  • 相关阅读:
    echarts各个配置项详细说明总结
    享元模式
    观察者模式
    策略模式
    桥接模式
    适配器模式
    建造者模式
    原型模式
    单例模式
    Java8新特性——集合底层源码实现的改变
  • 原文地址:https://www.cnblogs.com/knife-rose/p/15082998.html
Copyright © 2011-2022 走看看