贝叶斯网络 - 走看看

zoukankan html css js c++ java

贝叶斯网络
  1. 贝叶斯网络的定义

贝叶斯网络(Bayesian network)，又称信念网络(Belief Network)，或有向无环图模型(directed acyclic graphical model)，是一种概率图模型，于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型，其网络拓朴结构是一个有向无环图(DAG)。

贝叶斯网络的有向无环图中的节点表示随机变量，它们可以是可观察到的变量，或隐变量、未知参数等。认为有因果关系（或非条件独立）的变量或命题则用箭头来连接。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“因(parents)”，另一个是“果(children)”，两节点就会产生一个条件概率值。

    总而言之，连接两个节点的箭头代表此两个随机变量是具有因果关系，或非条件独立。

    例如，假设节点E直接影响到节点H，即E→H，则用从E指向H的箭头建立结点E到结点H的有向弧(E,H)，权值(即连接强度)用条件概率P(H|E)来表示，如下图所示：

    简言之，把某个研究系统中涉及的随机变量，根据是否条件独立绘制在一个有向图中，就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖，用圈表示随机变量(random variables)，用箭头表示条件依赖(conditional dependencies)。

令G = (I,E)表示一个有向无环图(DAG)，其中I代表图形中所有的节点的集合，而E代表有向连接线段的集合，且令X = (Xi)i ∈ I为其有向无环图中的某一节点i所代表的随机变量，若节点X的联合概率可以表示成：

则称X为相对于一有向无环图G 的贝叶斯网络，其中，表示节点i之“因”，或称pa(i)是i的parents（父母）。

    此外，对于任意的随机变量，其联合概率可由各自的局部条件概率分布相乘而得出：

如下图所示，便是一个简单的贝叶斯网络，因为a导致b，a和b导致c，所以有

2. 贝叶斯网络的三种结构形式

给定如下图所示的一个贝叶斯网络：

从图上可以比较直观的看出：

（1）x1,x2,...,x7的联合分布为

（2）x1和x2独立（对应head-to-head）；

（3）x6和x7在x4给定的条件下独立（对应tail-to-tail）。

    根据上图，第1点可能很容易理解，但第2、3点中所述的条件独立是啥意思呢？其实第2、3点是贝叶斯网络中3种结构形式中的其中二种。为了说清楚这个问题，需要引入D-Separation（D-分离）这个概念。

D-Separation是一种用来判断变量是否条件独立的图形化方法。换言之，对于一个DAG(有向无环图)E，D-Separation方法可以快速的判断出两个节点之间是否是条件独立的。

形式1：head-to-head

贝叶斯网络的第一种结构形式如下图所示：

所以有：P(a,b,c) = P(a)*P(b)*P(c|a,b)成立，化简后可得：

即在c未知的条件下，a、b被阻断(blocked)，是独立的，称之为head-to-head条件独立，对应本节中最开始那张图中的“x1、x2独立”。

形式2：tail-to-tail

贝叶斯网络的第二种结构形式如下图所示

考虑c未知，跟c已知这两种情况：

（1）在c未知的时候，有：P(a,b,c)=P(c)*P(a|c)*P(b|c)，此时，没法得出P(a,b) = P(a)P(b)，即c未知时，a、b不独立。

（2）在c已知的时候，有：P(a,b|c)=P(a,b,c)/P(c)，然后将P(a,b,c)=P(c)*P(a|c)*P(b|c)带入式子中，得到：P(a,b|c)=P(a,b,c)/P(c) = P(c)*P(a|c)*P(b|c) / P(c) = P(a|c)*P(b|c)，即c已知时，a、b独立。

所以，在c给定的条件下，a，b被阻断(blocked)，是独立的，称之为tail-to-tail条件独立，对应本节中最开始那张图中的“x6和x7在x4给定的条件下独立”。

形式3：head-to-tail

贝叶斯网络的第三种结构形式如下图所示：

还是分c未知跟c已知这两种情况：

（1）c未知时，有：P(a,b,c)=P(a)*P(c|a)*P(b|c)，但无法推出P(a,b) = P(a)P(b)，即c未知时，a、b不独立。

（2）c已知时，有：P(a,b|c)=P(a,b,c)/P(c)，且根据P(a,c) = P(a)*P(c|a) = P(c)*P(a|c)，可化简得到：

所以，在c给定的条件下，a，b被阻断(blocked)，是独立的，称之为head-to-tail条件独立。

插一句：这个head-to-tail其实就是一个链式网络，如下图所示：

根据之前对head-to-tail的讲解，我们已经知道，在xi给定的条件下，xi+1的分布和x1,x2…xi-1条件独立。意味着啥呢？意味着：xi+1的分布状态只和xi有关，和其他变量条件独立。通俗点说，当前状态只跟上一状态有关，跟上上或上上之前的状态无关。这种顺次演变的随机过程，就叫做马尔科夫链（Markov chain）。且有：

接着，将上述结点推广到结点集，则是：对于任意的结点集A，B，C，考察所有通过A中任意结点到B中任意结点的路径，若要求A，B条件独立，则需要所有的路径都被阻断(blocked)，即满足下列两个前提之一：

（1）A和B的“head-to-tail型”和“tail-to-tail型”路径都通过C；

（2）A和B的“head-to-head型”路径不通过C以及C的子孙；

最后，举例说明上述D-Separation的3种情况（即贝叶斯网络的3种结构形式），则是如下图所示：

上图中左边部分是head-to-tail，给定 T 时，A 和 X 独立；右边部分的右上角是tail-to-tail，给定S时，L和B独立；右边部分的右下角是head-to-head，未给定D时，L和B独立。

3. 贝叶斯网络的实例

给定如下图所示的贝叶斯网络：

其中，各个单词、表达式表示的含义如下：
- smoking表示吸烟，其概率用P(S)表示，lung Cancer表示的肺癌，一个人在吸烟的情况下得肺癌的概率用P(C|S)表示，X-ray表示需要照医学上的X光，肺癌可能会导致需要照X光，吸烟也有可能会导致需要照X光（所以smoking也是X-ray的一个因），所以，因吸烟且得肺癌而需要照X光的概率用P(X|C,S)表示。
- Bronchitis表示支气管炎，一个人在吸烟的情况下得支气管炎的概率用P(B|S)，dyspnoea表示呼吸困难，支气管炎可能会导致呼吸困难，肺癌也有可能会导致呼吸困难（所以lung Cancer也是dyspnoea的一个因），因吸烟且得了支气管炎导致呼吸困难的概率用P(D|C,B)表示。
lung Cancer简记为C，Bronchitis简记为B，dyspnoea简记为D，且C = 0表示lung Cancer不发生的概率，C = 1表示lung Cancer发生的概率，B等于0（B不发生）或1（B发生）也类似于C，同样的，D=1表示D发生的概率，D=0表示D不发生的概率，便可得到dyspnoea的一张概率表，如上图的最右下角所示。

http://blog.csdn.net/v_july_v/article/details/7237351#t64

转载 http://www.dataguru.cn/thread-508373-1-1.html
查看全文

相关阅读:
Loadrunner 参数化&参数化策略&参数化mysql
Loadrunner 录制脚本注意事项
 Centos7卸载nginx及php、php-fpm方法
 卸载apache
apache配置
 centOs
ajax-php跨域请求
 安装php
apache
java集合类，HashMap,ArrayList

原文地址：https://www.cnblogs.com/rgly/p/6516781.html