zoukankan      html  css  js  c++  java
  • 02引入不确定性和时间因素

    本文是根据 Game Theory An Introduction (Steven Tadelis) 一书第二章整理的学习笔记。

    离散结果(Discrete outcomes)

    为了形象表示一个决策过程中的随机因素,一种常用的技巧是引入决策树来进行分析:

    graph LR A[Player] -->|g| B[N]; B -->|0.75| D((10)) B -->|0.75| E((0)) A[Player] -->|s| C[N]; C -->|0.5| F((10)) C -->|0.5| G((0))

    如上图所示,g 和 s 表示策略集 A={g, s} 中的两个策略,结果用 (X)={0, 10} 表示,0,75, 0.25 分别表示行动 g 结果为10的概率为0.75,结果为0的概率为0.25;类似地,行动 s 结果为10的概率为0.5,结果为0的概率为0.5。

    一个简单的投机的结果集合为 (X={x_1, x_2, dots, x_n}) ,结果对应的概率分布为 (p = (p(x_1), p(x_2), dots, p(x_n))),其中 (p(x_k) geq 0) 表示 (x_k) 出现的概率,且满足 (sum_{k=1}^np(x_k)=1)

    决策过程的随机性可以用行动集合的条件概率来表示,也即给定一个策略 (a in A),对应结果为 (x_kin X) 的条件概率可以用 (p(x_k|a)) 来表示,其中 (p(x_k|a) geq 0),且 (sum_{k=1}^np(x_k|a) = 1) 对于任意的 (a in A) 都成立。

    连续结果(Continus outcomes)

    当一个决策问题的结果函数是离散情形时,决策树可以很形象的表示出决策过程的细节,然而当结果函数是连续情形时,这时不能用决策树来表示决策的过程了。针对结果函数是连续情况,我们有以下定义:

    一个简单的投机中,策略为 (a in A),对应的结果为 (x in X=[underline{x}, overline{x}]),结果对应的概率分布由累积分布函数 (F : X ightarrow [0, 1]) 给出,其中 (F(hat{x}|a) = m Pr{x leq hat{x}|a}) 表示在策略为 (a) 的条件下结果小于或等于 (hat{x}) 时的概率。

    期望报酬(Expected payoff)

    离散情形下的期望收益:

    决策者的结果在行动 (a) 下的结果用集合 (X={x_1, x_2, dots, x_n}) 表示,其中 (X) 发生的概率分布为 (p={p_1, p_2, dots, p_n}),对应 (p_k={ m Pr}{x=x_k|a})。 用 (u(x)) 表示参与者在本次决策中的收益函数,那么参与者在概率分布为 (p) 时的期望收益函数为:
    (v(a)=E[u(x)|p]=sum_{k=1}^np_ku(x_k)=p_1u(x_1)+p_2u(x_2)+dots+p_nu(x_n)).

    连续情形下的期望收益

    决策者的结果用区间 (X=[underline{x}, overline{x}]) 来表示,其中结果 (x) 满足的累积分布函数为 (F(x)),分布密度用 (f(x)) 表示,那么决策者的期望收益函数为:
    (v(a)=E[u(x)]=int_{underline{x}}^{overline{x}}u(x)f(x)dx).

    一个具有不确定性因素的决策问题,其理性决策定义为:某个决策 (a^*) 被称为理性决策,如果对于所有的决策 (a in A),满足 (v(a^*)=E[u(x)|a^*] geq E[u(x)|a] = v(a))

    决策过程的时间因素

    序贯决策

    在某些决策问题中,决策不是一次就完成,而是随着时间的推移,在已有决策的基础上需要作出新的决策,这种决策问题称为序贯决策(Sequential decision)。

    序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略)。也就是在时间上有先后之别的多阶段决策方法,也称动态决策法。多阶段决策的每一个阶段都需作出决策,从而使整个过程达到最优。多阶段的选取不是任意决定的,它依赖于当前面临的状态,不给以后的发展产生影响,从而影响整个过程的活动。当各个阶段的决策确定后,就组成了问题的决策序列或策略,称为决策集合。

    为了求解这类决策问题的最优策略,一般采用动态规划 (dynamic programming) 或者 倒推法 (backward induction)。

    时间对决策的影响

    在一些多阶段决策问题中,某个阶段的决策产生的收益是随着时间变化的。决策收益的折扣影响是指随着时间的推移,某个决策产生的收益是关于时间的一个折扣。假设某个时刻 (t) 的决策结果为 (x_t) ,该决策的收益用 (u(x_t)) 表示,折扣因子记为 (delta),则在 (T) 时刻该决策的收益经过打折后变为 (delta^{T-t}u(x_t)),那么在 ([0, T]) 内一系列的决策结果 (X={x_1, x_2, dots, x_T}) 对应的总收益函数为:

    [v(x_1, x_2, dots, x_T) = delta^{T-1}u(x_1)+delta^{T-2}u(x_2)+dots+u(x_T)=sum_{t=1}^Tdelta^{T-t}u(x_t) ]

  • 相关阅读:
    Ruby入门——简介&基本概述
    Ruby入门——数组
    测试之路——现阶段&下一阶段
    Ruby入门——环境准备
    Ruby入门——哈希表
    Linux常用命令<按字母排序...>之D,E,F
    多态界面的子控件控制
    随笔
    多态界面的数据显示
    app开发快速理解——webview网页显示
  • 原文地址:https://www.cnblogs.com/hdawen/p/10134074.html
Copyright © 2011-2022 走看看