1. 朴素贝叶斯公式
P(C|D)=P(D|C)P(C)/P(D)=P(D|C)P(C)/{求和c属于C,P(D|C=c)P(C=c)}
可以利用朴素贝叶斯公式计算文档d属于哪一个类别Ci,可以将该文档归类于概率最大的那一类,用于文档分类,垃圾处理
概率空间模型;
多重伯努力模型,
P(w|c)=DFw,c/Nc;这里DFw,c类别C中包含w的文本数量,Nc:表示训练样本中类别c的文本数量,通过最大似然估计,通过将文档拆分成词项,求解概率,通过乘积。
多项式模型,
考虑了此项的数量问题,计算概率,使贝叶斯分类其器成为一般的分类算法的最好选择;
支持向量机:
与基于概率论原理的朴树贝叶斯完全不同,是基于几何学原来,SVM,将输入文本看作几何空间中的一个点,将SVM用于二值分类,SVM的目标是发现能够分割正例和反例的超平面。对于SVM不是定义基础的事件空间,而是定义文本作为输入并生成成为特征值的特征函数,