垃圾邮件识别问题,也即对给定样本(包含垃圾邮件,非垃圾邮件)判断是否为垃圾邮件,根据贝叶斯定理:
⎧⎩⎨⎪⎪⎪⎪⎪⎪p(y=1|x)=p(y=1,x)p(x)p(y=0|x)=p(y=0,x)p(x)⇒p(y=1|x)p(y=0|x)=p(y=1,x)p(y=0,x)=p(y=1)p(x|y=1)p(y=0)p(x|y=0)
然后根据朴素贝叶斯的属性间的独立性假设可进一步分解为:
p(y=1|x)p(y=0|x)=p(y=1)∏ip(xi|y=1)p(y=0)∏ip(xi|y=0)
对 p(xi|y=1) 根据贝叶斯公式,又可得:
p(xi|y=1)=p(xi,y=1)p(y=1)
便可将全部不易计算的概率转化为容易计算的形式。