本文是根据 Game Theory An Introduction (Steven Tadelis) 一书第二章整理的学习笔记。
离散结果(Discrete outcomes)
为了形象表示一个决策过程中的随机因素,一种常用的技巧是引入决策树来进行分析:
如上图所示,g 和 s 表示策略集 A={g, s} 中的两个策略,结果用 (X)={0, 10} 表示,0,75, 0.25 分别表示行动 g 结果为10的概率为0.75,结果为0的概率为0.25;类似地,行动 s 结果为10的概率为0.5,结果为0的概率为0.5。
一个简单的投机的结果集合为 (X={x_1, x_2, dots, x_n}) ,结果对应的概率分布为 (p = (p(x_1), p(x_2), dots, p(x_n))),其中 (p(x_k) geq 0) 表示 (x_k) 出现的概率,且满足 (sum_{k=1}^np(x_k)=1)。
决策过程的随机性可以用行动集合的条件概率来表示,也即给定一个策略 (a in A),对应结果为 (x_kin X) 的条件概率可以用 (p(x_k|a)) 来表示,其中 (p(x_k|a) geq 0),且 (sum_{k=1}^np(x_k|a) = 1) 对于任意的 (a in A) 都成立。
连续结果(Continus outcomes)
当一个决策问题的结果函数是离散情形时,决策树可以很形象的表示出决策过程的细节,然而当结果函数是连续情形时,这时不能用决策树来表示决策的过程了。针对结果函数是连续情况,我们有以下定义:
一个简单的投机中,策略为 (a in A),对应的结果为 (x in X=[underline{x}, overline{x}]),结果对应的概率分布由累积分布函数 (F : X ightarrow [0, 1]) 给出,其中 (F(hat{x}|a) = m Pr{x leq hat{x}|a}) 表示在策略为 (a) 的条件下结果小于或等于 (hat{x}) 时的概率。
期望报酬(Expected payoff)
离散情形下的期望收益:
决策者的结果在行动 (a) 下的结果用集合 (X={x_1, x_2, dots, x_n}) 表示,其中 (X) 发生的概率分布为 (p={p_1, p_2, dots, p_n}),对应 (p_k={ m Pr}{x=x_k|a})。 用 (u(x)) 表示参与者在本次决策中的收益函数,那么参与者在概率分布为 (p) 时的期望收益函数为:
(v(a)=E[u(x)|p]=sum_{k=1}^np_ku(x_k)=p_1u(x_1)+p_2u(x_2)+dots+p_nu(x_n)).
连续情形下的期望收益
决策者的结果用区间 (X=[underline{x}, overline{x}]) 来表示,其中结果 (x) 满足的累积分布函数为 (F(x)),分布密度用 (f(x)) 表示,那么决策者的期望收益函数为:
(v(a)=E[u(x)]=int_{underline{x}}^{overline{x}}u(x)f(x)dx).
一个具有不确定性因素的决策问题,其理性决策定义为:某个决策 (a^*) 被称为理性决策,如果对于所有的决策 (a in A),满足 (v(a^*)=E[u(x)|a^*] geq E[u(x)|a] = v(a))。
决策过程的时间因素
序贯决策
在某些决策问题中,决策不是一次就完成,而是随着时间的推移,在已有决策的基础上需要作出新的决策,这种决策问题称为序贯决策(Sequential decision)。
序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略)。也就是在时间上有先后之别的多阶段决策方法,也称动态决策法。多阶段决策的每一个阶段都需作出决策,从而使整个过程达到最优。多阶段的选取不是任意决定的,它依赖于当前面临的状态,不给以后的发展产生影响,从而影响整个过程的活动。当各个阶段的决策确定后,就组成了问题的决策序列或策略,称为决策集合。
为了求解这类决策问题的最优策略,一般采用动态规划 (dynamic programming) 或者 倒推法 (backward induction)。
时间对决策的影响
在一些多阶段决策问题中,某个阶段的决策产生的收益是随着时间变化的。决策收益的折扣影响是指随着时间的推移,某个决策产生的收益是关于时间的一个折扣。假设某个时刻 (t) 的决策结果为 (x_t) ,该决策的收益用 (u(x_t)) 表示,折扣因子记为 (delta),则在 (T) 时刻该决策的收益经过打折后变为 (delta^{T-t}u(x_t)),那么在 ([0, T]) 内一系列的决策结果 (X={x_1, x_2, dots, x_T}) 对应的总收益函数为: