1、贝叶斯定理
贝叶斯条件概率公式的核心思想是利用容易知道的条件概率来推导出感兴趣的条件概率,公式如下:
P(B|A)=P(A|B)P(B)/P(A)
想要知道A发生后发生B的概率,可以用B发生后发生A的概率乘以B发生的概率再除A发生的概率。
2、贝叶斯定理在文本分类中的具体使用原理
我们知道文本都是由一个个的词语所构成的,利用有效技术手段将文本进行分词得到一个个文本的特征项(词语) 。算法具体流程可以表述如下:
(1)设x={a1,a2,……,am}为一个待分类项,x也就是上述说的由词语组成的文本集合,其中a1……am中的每个ai为x的一个特征属性(某个构成文本的词语)。
(2)有类别集合C={y1,y2,……,yn},如前面所说的新浪博客的分类
(3)计算P(y1|x),P(y2|x),P(y3|x),……,P(yn|x)
(4)如果P(yk|x)=max{P(y1|x),P(y2|x),……,P(yn|x)},则可以认为文档x属于分类yk。
其中算法的关键就是计算文档属于个个分类的概率也就是步骤(3)。
而给定的某个文档x属于某个分类yi的概率可计算如下(这时候应用了贝叶斯公式):
P(yi|x)=P(x|yi)P(yi)/P(x)
也即是对于给定的文档x属于某个分类yi的概率可由对于给定的分类yi,文档x在其上的概率计算得出。那么就需要针对每个分类yi,计算x在其上的概率。
由于x是由若干个词语aj构成,因此,可以计算aj(假设每个ai相互独立)在每个分类yi上的概率得出x在yi上的概率。
所以:
算法整体流程如下:
本文首发于 顶求网 转载请注明出处