zoukankan html css js c++ java

博弈论学习笔记（二）学会换位思考

博弈的三个要素

参与者 player
策略 strategy
利益 payoffs

si    第i个参与者的策略
S     策略集合
Ui    第i个参与者选择策略si的利益

我们假设现在有两个参与者1和2,对于player1
我们说si'是si的劣势策略，当且仅当不管player2选择什么策略sj,U1(si,sj)>U1(si',sj)。
我们说si'是si的弱劣势策略，当且仅当不管player2选择什么策略sj,U1(si,sj)>=U1(si',sj)。

例子

大约在公元前三世纪，骑大象的汉尼拔将军想要侵略罗马，这里有两条路可以选择：一条路崎岖，需要翻越阿尔卑斯山；另一条平坦，只需沿着海岸线走。如果侵略者选择崎岖的路，仅翻越的过程中就会损失一个营的兵力；如果他碰到了你驻守的兵力，不管它走那条路，他都得再损失一个营的兵力。入侵者只能选择其中的一条路进行入侵，防御者只能选择一条路防御。我应该选择哪一条路进行防御。

	α	β
α	2,0	0,2
β	0,1	1,1

这里假设α指崎岖的路，β指平坦的路。
其中左边的是我能够消灭的营的数量，右边的是汉尼拔将军能够保留的营的数量（假设他只有两个营，失去两个营他将会全军覆没）。
显然对于汉尼拔将军来说，策略β弱优于策略α，所以汉尼拔将军会选择策略β。
在汉尼拔将军选择β后，我选β能够得到较好的收益。
（事实上汉尼拔将军当时选择了翻越阿尔卑斯山。）

上一节课的题目
全班同学选择1到100之间的的一个数字，在不告诉别人的情况下，谁选的数字越接近平均数的三分之二，谁就获胜。你选的数字是什么？

第一次筛选：那些选择大于67的数会被淘汰，因为就算所有人都选择100，答案也是67又2/3。所以选择范围缩小到1到67。
第二次筛选：那些选择大于44的数会被淘汰，因为就算所有人都选择67，答案也是44又2/3。所以选择范围缩小到1到44。
第三次筛选：那些选择大于29的数会被淘汰，因为就算所有人都选择44，答案也是29又1/3。所以选择范围缩小到1到29。
。。。。。。
答案最终收敛为1。

选择45到67的人觉得别人都很愚蠢。
所以这里涉及到一个“我知道你知道我知道你知道……”的过程。 -- 共同知识 common knowledge
所以如果大家都是理性的，那么最优策略就是1。

但是最后统计得到的所有数的平均数是13又1/3，最接近他的2/3的数是是9，大于1。因为事实上并不是每个人都是理性的。

当我们再次进行一遍这次游戏的时候，所有人选择的数普遍都比之前要小了，因为大家都变得老练了。

因为不仅我们自己玩这个游戏玩的更好了，我们也了解到我们周围的人玩这个游戏玩的更好了。
对这个游戏的分析不仅让每个人都变得更老练了，也使你更了解别人老练的程度，并且你知道别人知道你知道如何玩到这个游戏。
从中我们得出一个重要结论：不仅你要站在别人的立场上思考别人的收益是怎么样的，你还要站在别人的立场上思考他们在博弈时有多老练，并且你还要考虑到他们认为你有多老练，还要考虑到他们认为你认为他们有多老练。

查看全文

相关阅读:
BZOJ5212 ZJOI2018历史（LCT）
BZOJ5127 数据校验
 253. Meeting Rooms II
311. Sparse Matrix Multiplication
254. Factor Combinations
250. Count Univalue Subtrees
259. 3Sum Smaller
156. Binary Tree Upside Down
360. Sort Transformed Array
348. Design Tic-Tac-Toe

原文地址：https://www.cnblogs.com/junealan/p/4331428.html