《众智科学》：博弈

zoukankan html css js c++ java

《众智科学》：博弈
博弈论

概念

研究博弈论时，我们的目的是研究人们在不同的博弈环境下倾向于采取怎样的决策。

基本要素
- 参与者（不少于两人，简单起见只考虑两人）
- 策略集
- 收益
基本假设
- 每个参与者都对博弈结构充分了解
- 参与者之间无法交流，也不会考虑个人收益之外的因素
- 每个参与者选择的策略都是为了达到自身收益最大化
最佳应对

假设S是参与者1采取的策略，T是参与者2采取的策略，记$P_1(S,T)$是参与者1在当前状况下取得的收益。设参与者1的其他策略组成集合$S'$，若满足$P_1(S,T)>=P_1(S',T)$，则称参与者1的策略S是参与者2的策略T的最佳应对。

若满足$P_1(S,T)>P_1(S',T)$，则称参与者1的策略S是参与者2的策略T的严格最佳应对。

占优策略

在最佳应对讨论的问题中，若参与者1有策略M，使得M对参与者2的每一种策略都是最佳应对，即无论参与者2选择何种策略，参与者1都能通过策略M取得最大收益，则称策略M是占优策略。同理，若M对参与者2的每一种策略都是严格最佳应对，则称策略M是严格占优策略。

显然参与者会采取严格占优策略，但占优策略可能不止一个。如果存在多个潜在的占优策略，结果就难以预测。

博弈类型

在有限参与者和有限策略集的情况下，博弈总会存在均衡。 ——纳什

纳什均衡——博弈双方都无严格占优策略

若参与者1选择策略S，参与者2选择策略T，且S是T是最佳应对，T也是S的最佳应对，则策略组$(S, T)$是一个纳什均衡。

此时，任何参与者都没有动机改变策略，因此系统处于均衡的状态中。

考试临近，由于时间紧迫，同一小组的学生A和学生B两人都必须独立作出决定：是复习考试，还是准备报告。不同方案的最终成绩如下：

(学生A，学生B) 复习报告

复习 (88, 88) (86, 92)

报告 (86, 92) (90, 90)

对于学生A，如果学生B选择报告，则他应该选择复习以取得最大收益（92分）；如果学生B选择复习，则他应该选择复习以取得最大收益（88分）。学生B同理。因此纳什均衡为（复习，复习）。

有些博弈中存在一个以上的纳什均衡，称为多重均衡。以下是一些多重均衡的例子。

协调博弈

两个参与者的目标是策略上的协调，也就是二者采取同样的策略时双方收益都最大。此时存在多个纳什均衡。

托马斯·谢林指出，由于社会习俗等与博弈本身无关的自然原因，参与者的选择会集中在某一个纳什均衡上。

假设你与队友合作展示项目，双方已经做好了分工，但无法联系。你必须决定是用PowerPoint还是Keynote来制作幻灯片。如果你们使用同样的软件制作，幻灯片就容易合并，否则就难以合并，甚至需要重新制作。

如果你事先知道你的队友使用Windows系统，而且你也是Windows系统，显然你应该用PowerPoint制作。

猎鹿博弈（协调博弈的变式）

两个猎人外出打猎，若他们合作，则可以打到鹿；若他们单独行动，则只能打到兔。若其中一个猎人想猎鹿而另一个想猎兔，猎兔的猎人仍能得到兔，但猎鹿的猎人一无所获。

(猎人1, 猎人2) 猎鹿猎兔

猎鹿 4, 4 0, 3

猎兔 3, 0 3, 3

鹰鸽博弈（又称懦夫博弈）

两只动物同时得到了一堆食物，它们可以选择争夺食物（鹰派策略）或分享食物（鸽派策略）。若两只动物都选择分享，它们均匀分配食物，各得到3；若其中一只选择争夺，另一只选择分享，争夺方能得到5，分享方只能得到1；若两只动物都选择争夺，混战会给它们带来损失，二者都得到0.

(动物1, 动物2) 争夺分享

争夺 0, 0 5, 1

分享 1, 5 3, 3

鹰鸽博弈中存在两个纳什均衡（鹰，鸽）和（鸽，鹰）。在没有充分掌握两只动物的情况时，无法预测哪种均衡会形成。

有些博弈中不存在纳什均衡，此时通过引入随机性来扩大参与者的策略集，进而预测策略。纳什指出，在有限参与者和有限策略集的情况下，博弈总会存在均衡。与此相关最简单的一类博弈称为攻防博弈。

混合策略：攻防博弈

两名参与者分别为进攻方和防守方。他们分别有两种策略可以采用。若防守方采取的策略正好对上进攻方的策略，则防守方收益大；否则进攻方收益大。

两参与者各持一枚硬币，同时展示该硬币。若两硬币朝向相同，参与者1赢得参与者2的硬币；反之，参与者2赢得参与者1的硬币。

(人1, 人2) 正反

正 1, -1 -1, 1

反 -1, 1 1, -1

此类博弈中参与者的总收益是0，称为零和博弈。

现在向硬币博弈中引入随机性，参与者1有概率p选择正面，概率(1-p)选择反面(0<p<1). 同理，参与者2有概率q选择正面，概率(1-q)选择反面(0<q<1). 此时我们可以计算出参与者1的收益期望：

参与者1选择正面：$E_H=q-(1-q)=2q-1$ 参与者1选择反面：$E_T=1-q-q=1-2q$

显然，若$E_H≠E_T$，参与者1就有理由选择收益更大的策略，而参与者2也可以据此选择收益更大的策略。因此每个参与者都应该随机化自己的行为，即令$P_H=P_T$。此时$2q-1=1-2q,\ q=0.5$，形成混合策略均衡。

帕累托最优

当每个参与者都从一个策略集中选择了一个策略，且不存在其他策略使所有参与者都得到至少和目前一样高的回报，且至少一个参与者能得到严格较高的回报，此时这组策略选择成为帕累托最优。

然而，如同上文中的考试问题，（报告，报告）、（报告，复习）、（复习，报告）都是帕累托最优，但（考试，考试）却是唯一的纳什均衡。即使参与人双方都知道存在另一个更优策略，除非有强有力的协议，否则也无法更换为更优策略。

社会最优

若一组策略选择使得参与者的回报之和最大，称为社会福利最大化（或社会最优）。

社会最优也一定是帕累托最优。纳什均衡和社会最优可能一致。

网络结构中的博弈
- 布雷斯悖论：网络中增加新的连接后反而可能使均衡状态的性能受损
  
  流量模式：每个司机作出的路线选择；社会成本：所有司机使用该流量模式时产生的行程时间总和
  
  解决方案：封路、收费
- 拍卖
查看全文

相关阅读:
Maven工程无异常启动没有出现Starting ProtocolHandler的原因
 Unknown return value type [java.lang.Boolean]] with root cause
解决java.lang.IllegalArgumentException: No converter found for return value of type
jsp页面的地址
 HTTP Status 500
Could not resolve placeholder 'IMAGE_SERVER_URL' in string value "${IMAGE_SERVER_URL}"
yum出现Loaded plugins: fastestmirror, security Loading mirror speeds from cached hostfile解决方法
 【程序人生】百度员工应聘腾讯职位，结果亮了！
【开源组件】FastDFS集群搭建与实战
 【开源组件】FastDFS极速入门与安装

原文地址：https://www.cnblogs.com/kamigen/p/14872797.html

(学生A，学生B)	复习	报告
复习	(88, 88)	(86, 92)
报告	(86, 92)	(90, 90)

(猎人1, 猎人2)	猎鹿	猎兔
猎鹿	4, 4	0, 3
猎兔	3, 0	3, 3

(动物1, 动物2)	争夺	分享
争夺	0, 0	5, 1
分享	1, 5	3, 3

(人1, 人2)	正	反
正	1, -1	-1, 1
反	-1, 1	1, -1

《众智科学》：博弈

博弈论

概念

基本要素

基本假设

最佳应对

占优策略

博弈类型

纳什均衡——博弈双方都无严格占优策略

协调博弈

猎鹿博弈（协调博弈的变式）

鹰鸽博弈（又称懦夫博弈）

混合策略：攻防博弈

帕累托最优

社会最优

网络结构中的博弈