读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈 预备知识
完整信息的动态博弈 预备知识
本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。
动态博弈(Dynamic Games)
静态博弈是每个玩家同时(并且在不知道其他玩家选择的情况下)做出选择。
动态博弈引进了玩家做出选择的先后次序。
注意:玩家i做出了选择后,玩家j知道玩家i做出了选择,但是不一定知道玩家i做出了什么选择。
扩展形式博弈(The Extensive-Form Game)
扩展形式博弈的表达结构:
- Set of player, N.
- Players payoff as a function of outcomes, ({ v( cdot ) }_{i in N}).
- Order of moves.
- Actions of players when they can move.
- The knowledge that players have when they can move.
- Probability distributions over exogenous events.
"exogenous"是指预先确定的分布概率自然选择(不依赖于玩家的选择) - The structure of the extension-form game represented by 1-6 is common knowledge among all the players.
博弈树(game tree)
-
博弈树
博弈树用来表示扩展形式博弈。
一个博弈树是一个带先后关系(x > x')的节点集合(x in X)。
(x > x')表示x在x'之前。
每个节点只有一个父。
先后关系(precedence relation)具有:
传递性(transitive): (x > x', x' > x'' implies x > x'')
不对称性(asymmetric): (x > x' implies not x' > x)
不完整性(incomplete): 不是每一对x, y有先后次序。
有一个根节点,标记为(x_0),是其它所有节点的祖先。
没有子的节点称为末端节点(terminal nodes),表示为(Z subset X)。
末端节点表示为结果,并关联收益函数。
非末端节点被赋予1)一个玩家(i(x)),和行动集合(A_i(x)),或者2)自然(Nature)。 -
信息集合列表(the collection of information set of player i)
玩家i的信息集合(information set)列表,每个信息集合(h_i in H_i)博弈树中的玩家i运行的部分节点,具有以下属性:- 如果(h_i = { x })是一个单例集合,则运行(x)的玩家i知道他位于(x)节点上。
- 如果(h_i = { x, x', cdots }),则运行(x)的玩家i不知道他位于(x)节点上还是位于(x')节点上。
- 如果(h_i = { x, x', cdots }),则(A_i(x') = A_i(x))。
更多的解释,这是为完美信息的定义打铺垫。
如果玩家i的信息集列表都是(h_i = { x }),则表明玩家i知道:1) 行动次序, 2)对方的行动是什么。
如果玩家i的信息集列表存在是(h_i = { x, x', cdots }),则表明玩家i知道:1) 行动次序。但是不知道: 1)对方的行动是什么。
这是导致玩家i: 1)性质2:不决定位于博弈树上的那个节点,因此,性质3:(A_i(x') = A_i(x))也必然成立。
- 完美信息博弈
一个完整信息博弈中,每个玩家i的每个信息集都是单例集合,并且没有自然(Nature)选择,则这个博弈是完美信息博弈。 - 不完美信息博弈
一个完整信息博弈中,存在一些信息集不是单例集合,或者有自然(Nature)选择,则这个博弈是完美信息博弈。
可以将自然选择理解为掷骰子、抽签、盲牌。
-
扩展形式博弈的纯策略
玩家i的一个纯策略是一个完整计划,描述了在每一个信息集合上,玩家i会选择哪个纯行动。 -
扩展形式博弈的纯策略
玩家i的一个纯策略是影射: (s_i: H_i o A_I),对于每个信息集(h_i in H_i),有(s_i(h_i) in A_i(h_i))
(A_i(h_i))表示玩家i的一个信息集对应的行动集合。 -
扩展形式博弈的策略数
-
混合策略(mixed strategy)
一个混合策略是一个在各个纯策略上的概率分布。 -
行为策略(behavioral strategy)
一个行为策略:对每一个信息集(h_i in H_i),有一个在各个行动(a_i(h_i) in A_i(h_i))上的概率分布,表示为
(sigma_i : H_i o Delta A_i(h_i))
(sigma_i(a_i(h_i))) : 玩家i,在信息集(h_i)上,选择行动(a_i(h_i) in A_i(h_i))的概率。 -
纯策略 vs 混合策略 vs 行为策略
纯策略使用一个行动作为策略结果。
混合策略在玩游戏前是一个行为的概率分布,最终还是使用了一个纯策略。
行为策略在玩游戏前和玩的时候,都是一个行为的概率分布。 -
完美回忆博弈(a game of perface recall)
在完美回忆博弈中,每个玩家都不会忘记之前知道的信息集。 -
均衡路径(the equilibrium path)
在一个扩展形式博弈中,行为策略的纳什均衡(sigma^* = (sigma_1^*, cdots, sigma_n^*))。
如果一个信息集有可能到达这个纳什均衡(sigma^*),则称这个信息集在均衡路径上。
如果一个信息集不可能到达这个纳什均衡(sigma^*),则称这个信息集不在均衡路径上。
参照
- Game Theory An Introduction (by Steven Tadelis)