转自:https://baike.baidu.com/item/%E8%B6%85%E5%87%A0%E4%BD%95%E5%88%86%E5%B8%83/4782968?fr=aladdin
https://www.jianshu.com/p/13f46bebebd4
1.定义
//这个说法比较好理解,就是抽取残次品的概率。但是得提前知道有几件不合格品,这个可以通过生产线的残次率来估算的吧。
超几何分布是富集分析的常用方法,常用的GO富集分析都是用超几何分布计算的。下面将浅显的探讨一下超几何分布的原理。
//关于基因富集还需要学习,暂且放过。
在这里我们做一个简单的概念转换即可知道软件是如何做GO富集分析的:
- N为GO注释数据库中的总基因数;
- M为数据库中属于某个GO子类的基因数;
- n为我们得到的需要进行GO富集分析的基因的总数目;
- k为n中属于M的数目。
因此我们就可以计算基因集n是否在M类中富集的概率。
2.例子
在基因富集中的P值计算公式:
上面式子的意思是: 从总N个基因抽n个基因, 作为分母,分子是M个基因有i个落在通路里,有n-i个不落在通路里。 p-value是指你观察到m个基因落在通路里,比这还要更极端的概率之和
,所以i是从m到M。 就是说看到更多的基因落在这个通路里的所有可能。
//也就是在基因富集中的应用就是通过超几何分布用来计算P值。
2020-2-19更新——————————
转自: https://www.zhihu.com/question/38191693/answer/75277085