概率图模型课堂笔记：1.4 决策理论

zoukankan html css js c++ java

概率图模型课堂笔记：1.4 决策理论
预备知识，求和函数的两个性质：
- $displaystylesum_{x,y}F(x)G(y)=[sum_{x}F(x)][sum_{y}G(y)]$
- $displaystylesum_{x,y}F(x)G(x,y)=sum_{x}[F(x)[sum_{y}G(y)]]$
抽奖Lottery:
- Lottery是指一系列的系统状态和它对应的发生概率。例如，“50%获得1000元钱，50%获得0元”是一个lottery。它有两个状态：获取1000元钱，获取0元钱，以及各自的概率都是50%
效用函数：$U(x)$
- $U$是一个一元或多元函数，值域为实数，表示Agent对系统状态的满意程度的打分。每一个x的取值都描述了一个系统状态
- 一个Lottery的效用就是将所有的系统状态$x$的效用$U(x)$用对应的概率$P(x)$进行加权平均：$displaystylesum_xP(x)U(x)$，我们也称之为期望效用$EU$
- $U$这个函数一般要经过设计，使得对不同的系统状态的U取值进行概率线性叠加后，依然能反映效用高低。例如，如果人们更倾向于“100%的概率获得500元钱”，而不是“50%获得1000元钱，50%获得0元”。那么后者的效用低于前者。即：$0.5U(0)+0.5U(1000)<U(500)$，那么，U应该设计为一个上凸函数。
- 效用函数本身是一个Factor，为方便计算机运算，用条件概率的形式描述为：$P(1|x)=U(x)$，其中1是U的唯一取值，取值概率为$U(x)$。整个概率图就是一个大的Lottery，系统概率总和不再是1，而是效用$displaystyle EU=sum_xP(x)U(x)$
决策：
- 在概率图中引入第二种特殊元素：决策变量A。
- 将效用函数$U(x)$的自变量分为两部分：$x$和$a$，前者是普通的随机变量，后者是决策变量。
1. 情况1：$Pa_{A}=emptyset$
2. 情况2：$Pa_{A} eemptyset$。为了方便描述，我们定义一个$delta_{a}(A|Pa_{A})$，代表在$Pa_{A}$给定的情况下，A取值的分布率。
- $delta_{A}(A|Pa_{A})$是我们要求的目标函数，取值非0即1
  
  函数$delta_A$确定后，
  $EU[D[delta_A]]$
  $=displaystyle sum_{x,a}P_{delta_A}(x,a)U(x,a)$
  $=displaystylesum_{X_1,...,X_n,A}(prod_iP(X_i|Pa_{X_i}))U(Pa_U)delta_A(A|Pa_A)$
  $=displaystylesum_{Pa_A,A}delta_A(A|Pa_A)sum_{X_1,...,X_n - Pa_A}(prod_i(P(X_i|Pa_{X_i}))U(Pa_U)$
  $=displaystylesum_{Pa_A,A}delta_A(A|Pa_A)mu(A,Pa_A)$
  
  其中$displaystyle mu(A,Pa_{A})=sum_{X_{1},...,X_{n} - Pa_{A}}(prod_i(P(X_{i}|Pa_{X_{i}}))U(Pa_U)$ 理解这个式子非常重要，它是手动推算的基础。就是给定A和$Pa_{A}$的情况下，系统的EU。
  
  需要期望效用最大化，那么对每一个$Pa_{A}可能的取值，穷举$A的取值，然后取$mu$最大的那个
  $delta^*_{A}(A|Pa_{A})=egin{cases}1&a=argmax_{A}mu(A,Pa_{A})\0&otherwiseend{cases}$
为什么条件决策比无条件决策的EU更高？因为针对不同的$Pa_A$取值可以有不同的A。如果针对不同的Pa取值强行使用相同的决策，那么可退化成无条件决策。那么可以说，条件决策和无条件决策至少一样好。
查看全文

相关阅读:
CF 149D Coloring Brackets（区间DP，好题，给配对的括号上色，求上色方案数，限制条件多，dp四维）
hdu 4607 树形dp 树的直径
 poj 2955 区间dp入门题
 poj 2139 flord水题
 poj 2377 最大生成树
 lightoj 1422 区间dp
模拟类似括号匹配
 nyoj 33 蛇形填数
 nyoj 2 括号配对问题水
 Hackonacci Matrix Rotations 观察题，更新了我的模板

原文地址：https://www.cnblogs.com/milaohu/p/6228458.html