02引入不确定性和时间因素

zoukankan html css js c++ java

02引入不确定性和时间因素

本文是根据 Game Theory An Introduction (Steven Tadelis) 一书第二章整理的学习笔记。

离散结果(Discrete outcomes)

为了形象表示一个决策过程中的随机因素，一种常用的技巧是引入决策树来进行分析：

graph LR A[Player] -->|g| B[N]; B -->|0.75| D((10)) B -->|0.75| E((0)) A[Player] -->|s| C[N]; C -->|0.5| F((10)) C -->|0.5| G((0))
如上图所示，g 和 s 表示策略集 A={g, s} 中的两个策略，结果用 (X)={0, 10} 表示，0,75, 0.25 分别表示行动 g 结果为10的概率为0.75，结果为0的概率为0.25；类似地，行动 s 结果为10的概率为0.5，结果为0的概率为0.5。

一个简单的投机的结果集合为 (X={x_1, x_2, dots, x_n}) ，结果对应的概率分布为 (p = (p(x_1), p(x_2), dots, p(x_n)))，其中 (p(x_k) geq 0) 表示 (x_k) 出现的概率，且满足 (sum_{k=1}^np(x_k)=1)。

决策过程的随机性可以用行动集合的条件概率来表示，也即给定一个策略 (a in A)，对应结果为 (x_kin X) 的条件概率可以用 (p(x_k|a)) 来表示，其中 (p(x_k|a) geq 0)，且 (sum_{k=1}^np(x_k|a) = 1) 对于任意的 (a in A) 都成立。

连续结果(Continus outcomes)

当一个决策问题的结果函数是离散情形时，决策树可以很形象的表示出决策过程的细节，然而当结果函数是连续情形时，这时不能用决策树来表示决策的过程了。针对结果函数是连续情况，我们有以下定义：

一个简单的投机中，策略为 (a in A)，对应的结果为 (x in X=[underline{x}, overline{x}])，结果对应的概率分布由累积分布函数 (F : X ightarrow [0, 1]) 给出，其中 (F(hat{x}|a) = m Pr{x leq hat{x}|a}) 表示在策略为 (a) 的条件下结果小于或等于 (hat{x}) 时的概率。

期望报酬(Expected payoff)

离散情形下的期望收益：

决策者的结果在行动 (a) 下的结果用集合 (X={x_1, x_2, dots, x_n}) 表示，其中 (X) 发生的概率分布为 (p={p_1, p_2, dots, p_n})，对应 (p_k={ m Pr}{x=x_k|a})。用 (u(x)) 表示参与者在本次决策中的收益函数，那么参与者在概率分布为 (p) 时的期望收益函数为：
(v(a)=E[u(x)|p]=sum_{k=1}^np_ku(x_k)=p_1u(x_1)+p_2u(x_2)+dots+p_nu(x_n)).

连续情形下的期望收益

决策者的结果用区间 (X=[underline{x}, overline{x}]) 来表示，其中结果 (x) 满足的累积分布函数为 (F(x))，分布密度用 (f(x)) 表示，那么决策者的期望收益函数为：
(v(a)=E[u(x)]=int_{underline{x}}^{overline{x}}u(x)f(x)dx).

一个具有不确定性因素的决策问题，其理性决策定义为：某个决策 (a^*) 被称为理性决策，如果对于所有的决策 (a in A)，满足 (v(a^*)=E[u(x)|a^*] geq E[u(x)|a] = v(a))。

决策过程的时间因素

序贯决策

在某些决策问题中，决策不是一次就完成，而是随着时间的推移，在已有决策的基础上需要作出新的决策，这种决策问题称为序贯决策（Sequential decision）。

序贯决策是指按时间顺序排列起来，以得到按顺序的各种决策(策略)。也就是在时间上有先后之别的多阶段决策方法，也称动态决策法。多阶段决策的每一个阶段都需作出决策，从而使整个过程达到最优。多阶段的选取不是任意决定的，它依赖于当前面临的状态，不给以后的发展产生影响，从而影响整个过程的活动。当各个阶段的决策确定后，就组成了问题的决策序列或策略，称为决策集合。

为了求解这类决策问题的最优策略，一般采用动态规划 (dynamic programming) 或者倒推法 (backward induction)。

时间对决策的影响

在一些多阶段决策问题中，某个阶段的决策产生的收益是随着时间变化的。决策收益的折扣影响是指随着时间的推移，某个决策产生的收益是关于时间的一个折扣。假设某个时刻 (t) 的决策结果为 (x_t) ，该决策的收益用 (u(x_t)) 表示，折扣因子记为 (delta)，则在 (T) 时刻该决策的收益经过打折后变为 (delta^{T-t}u(x_t))，那么在 ([0, T]) 内一系列的决策结果 (X={x_1, x_2, dots, x_T}) 对应的总收益函数为：

[v(x_1, x_2, dots, x_T) = delta^{T-1}u(x_1)+delta^{T-2}u(x_2)+dots+u(x_T)=sum_{t=1}^Tdelta^{T-t}u(x_t) ]

查看全文

相关阅读:
Oracle spatial、openlayers、geoserver开发地理信息系统总结
 解决Geoserver请求跨域的几种思路，第二种思路用过
 OpenLayers中的球面墨卡托投影
 墨卡托投影、地理坐标系、地面分辨率、地图比例尺
 jQuery Easing 动画效果扩展
 jQuery实现鼠标移上弹出提示框，移出消失
 验证码生成组件--JCaptcha的使用
 jquery validate 验证
 Oracle查询错误分析:ORA-01791:不是SELECTed表达式
 启动tomcat报host-manager does not exist or is not a readable directory异常

原文地址：https://www.cnblogs.com/hdawen/p/10134074.html

02引入不确定性和时间因素

离散结果(Discrete outcomes)

连续结果(Continus outcomes)

期望报酬(Expected payoff)

决策过程的时间因素

序贯决策

时间对决策的影响