本文主要从最原始的概率问题开始,并引出条件概率,从逆概引出释然性,最后过度到贝叶斯公式的理解
1. 概率问题
“假设袋子里面有N个白球,M个黑球,你伸手进去摸一个球出来,摸出黑球的概率是多大”?
P(黑) = M/(M+N) P(白) = N/(M+N)
这很好计算,上面的计算公式中,用到了黑球除以黑球加白球后得到的比例
但是我们还需要再进一步去理解概率的定义,但是要了解这个定义我们需要先了解样本空间,我们的重点在概念理解上。
样本空间就是试验的所有可能的结果的集合,摸球的例子中,所有可能的结果就是M+N个球,因为可能摸到任意一个球
一次随机试验就是一个事件,一个事件可能是基本事件也可能是基本事件的组合,可以这样理解事件,它是样本空间的子集。
概率 = 事件中包含的基本事件的数量/样本空间中的基本事件的数量
以上面的例子我们可以找到对应的概念部分
基本事件:{白球},{白球},......,{白球},{黑球},{黑球},......,{ 黑球}
事件: 选一个黑球,{黑球},{黑球},......,{ 黑球}
样本空间:所有白球和黑球
概率= (事件包含的基本事件的数量)/ 样本空间中样本点的数量
= M / (M+N)
这部分表达不是很好,具体的关于样本空间和事件的理解,可以参考其他的博客文章
2. 条件概率
前面讲过概率了,现在轮到条件概率了,我们也从一个例子开始
例:有一个家庭生了两个小孩,如果只告诉你其中一个是女孩,问另外一个是女孩的概率是多少?
很多人认为这个问题是男是女的问题,一半一半,所以是二分之一。
2.1 从概念理解
我们来看看,我们已经知道了其中一个是女孩,这就是条件,在这个条件下,发生了什么事情,样本空间发生了变换,经过了筛选
原来的样本空间是:{男,男},{男,女},{女,男},{女,女}
已经知道其中一个是女孩,现在的样本空间变成下面的情况:
{男,女},{女,男},{女,女}
因此答案是1/3. 对此答案如果还有怀疑的话,需要注意题目中只告诉我们有一个是女孩,但是并没有告诉我们哪一个是女孩。
所以另外一个是女孩,就只能是 {女,女},因此是1/3.
2.2 从公式理解
上面从定义的角度去解析的,下面从公式的角度来解析
P(B|A) = P(AB) /P(A)
这里A是其中一个是女孩的情况,B另外一个也是女孩
A∩B 代表其中一个是女孩,另外一个也是女孩
P(另外一个也是女孩 | 其中一个是女孩) = P(其中一个是女孩并且另外一个也是女孩)/P(其中一个是女孩的情况)
= (1/4)/(3/4) = 1/3
到这里我们用到了条件概率的公式,但是怎么理解并记住这个公式呢,下面我们接着来讲
2.3 文氏图
先上一张图
先来解释一下这张图, A 代表事件A的样本空间,B代表事件B的样本空间
A∩B如果是空集(表明A、B 互相独立)
我们要计算的就是,事件A发生的条件下,事件B发生的概率。
条件概率与概率,都是概率,计算的方法都是一样的,唯一的不同在于事件包含的基本事件数目可能发生了变化。
P(AB) = P(A∩B), 表示AB同时发生的概率,文氏图表示就是集合A与集合B的交集
AB 表示一个新的事件(A发生的同时,B也发生)
P(B|A) = P(AB) / P(A) ,表示同时发生的情况下,(AB所占的基本事件的数量)占事件A(基本事件数量)的比例的大小理我们可以理解P(A|B)
现在再理解条件概率的定义就好懂多了
从图中可以看到,AB相交的公共部分就是P(A∩B),这没什么好说的,好看下一步
P(A|B) 这部分对应到上图中是哪一部分呢?
我们把公式变换一个形式来看
P(A|B) = P(AB)/P(B) P(B|A) = P(AB)/P(A) ,图和公式是对条件概率的两种表现形式
我们可以看到,条件概率P(A|B) 表达的意义就是: AB公共的部分占B的全部的比例有多大
同理,P(B|A) 表达的意义就是: AB公共的部分占A的全部的比例有多大
这样以后记不住条件概率的公式是怎么写的,画个图一下就明白了
3. 逆概问题
既然有了正向的概率,一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是随意摸出一个球,观察取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作 出什么样的推测”。
这就是所谓的逆概问题。
从上面的这段话的理解可以看出,这里的核心思想是:我们从间接地观测对象去推断不可直接观察的对象的情况。
这里需要做的事情是什么呢,首先要有一个假定,和一个观测结果,然后计算这个观测结果跟这个假定符合的程度,这个计算出来的程度也叫似然性。
在众多的假定中,我们会选取一个符合程度最大的那个假定作为我们的结论,也就是最大似然性。
4.贝叶斯公式
这是一个新的东西吗,NO,不要被这些名词概念迷惑了,我们来看看到底这个神奇的贝叶斯公式是何方圣神
之前我们讨论了条件概率,还是从它下手
P(A|B) = P(AB)/P(B) ..............................(1)
P(B|A) = P(AB)/P(A) ..............................(2)
用(1)/(2) ,可以得到
P(A|B) P(A)
-------------- = --------
P(B|A) P(B)
P(A|B)=P(B|A)*P(A)/P(B)
这就是大名鼎鼎的贝叶斯公式?是否太儿戏了呢,到底它蕴含了什么精华在里面呢?
它的秘密就隐藏在我们在对条件概率做处理的时候,它表达的是两个互为条件概率之间的关系
因此,贝叶斯公式的精华就是 两个互为条件概率之间的关系
到这里,可还没有到结束的时候,我们已经理解了贝叶斯公式的精华,但是更具体的我们还不清楚,还是继续往下挖吧。
我们可以再换一种形式来表示贝叶斯公式
P(A|B) ∝ P(B|A)*P(A)
注意这里没有了P(B) 项 ,等号变成了 正比符号
如果A是一个假定,B是观测现象,那么P(B|A) 就是在假定A下面,观测现象B符合A的可能性大小,这不就是似然性吗?
P(A) 是什么?
A是假定,P(A) 就是这个假定的可能性大小,我们把P(A) 叫先验概率
(为什么叫先验概率,那是因为我们基于过去的经验对A这个假定的一个认识,不需要知识 就可以使用的经验,先验就是先于知识的经验,关于这个问题可以百度其他的文章来理解,这里就不再多说了。同样有了先验,就会有后验概率,后验就是在有了新的观测以后,对先验知识的更新。
P(B|A) 是什么?
B是观测的现象,就是在假定A下面观测到B的现象的可能性大小,也就是似然性
P(A|B) 是什么?
这就是在观测到B以后,对A的可能性大小做出的判断,可以看出,P(A) 和 P(A|B) 之间是有差别的,这种差别就在于有了观测结果以后对原来的P(A)的一个新的认识
因此,贝叶斯公式又有了新的含义
后验概率 ∝ 似然性 * 先验概率
怎么理解这个公式, 就是说我们先有了一个假设,然后观测现象,有了观测现象就可以计算这个假设下的似然性,然后就可以更新原来的先验概率
理解到后验证概率是可以更新的,然后又可以作为先验概率,这样就可以进入一个循环迭代,随着观测的数据越来越多,我们得到的先验概率就会越来越准确。