1.9. Naive Bayes
朴素贝叶斯是一种监督学习的算法,基于贝叶斯公式和“朴素”的假设——特征之间相互独立。给出分类变量y和相互之间独立的特征x1到xn,贝叶斯公式如下:
根据独立性假设有
对于所有的i,它们的关系可以表示为
上面的公式中,P(x1,x2,...,xn)为一个常数,因此可以用下面的判别规则:
我们用最大后验概率(MAP)估计 P(y) 和 P(xi|y);后者为测试集中分类 y 的条件概率。
不同朴素贝叶斯之间的区别主要是它们对分布的假设 P(xi|y)不同。
尽管假设过于简单,但在实际情况下,朴素贝叶斯分类的效果却很好,尤其是文本分类和垃圾邮件过滤。它只需要小量样本去估计必要的参数。(理论上,朴素贝叶斯效果好的原因为,和适用怎样的数据集,可参看下面的文献。)
朴素贝叶斯学习和分类比其他先进的方法更快。分类的特征分布可以被分解为每个一维特征的条件分布。这避免了因为维度增加导致的问题。(This in turn helps to alleviate problems stemming from the curse of dimensionality.)
另一方面,尽管众所周知,朴素贝叶斯是一个实用的分类器,但它却有一个不好的假设,所以, predict_proba 预测的概率,进攻参考使用。
References:
- H. Zhang (2004). The optimality of Naive Bayes. Proc. FLAIRS.
1.9.1. Gaussian Naive Bayes
GaussianNB 用于高斯朴素贝叶斯分类算法。它假设特征分布近似高斯分布:
参数 σy 和 μy 用最大似然法估计。
>>> from sklearn import datasets >>> iris = datasets.load_iris() >>> from sklearn.naive_bayes import GaussianNB >>> gnb = GaussianNB() >>> y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) >>> print("Number of mislabeled points out of a total %d points : %d" ... % (iris.data.shape[0],(iris.target != y_pred).sum())) Number of mislabeled points out of a total 150 points : 6
1.9.2. Multinomial Naive Bayes
MultinomialNB 用于多项式分布朴素贝叶斯算法,是两种经典的贝叶斯算法之一,被用于文本分类(数据常用词频向量表示,tf-idf向量也常使用)。每个分类 y 的分布被参数化为向量 θy = (θy1,θy2,...,θyn),n 为特征的个数(文本分类中,为单词的个数),θyi 表示条件概率 P(xi|y), 即特征 i 在分类 y 中出现的概率。
参数 θy 用平滑极大似然估计,与其出现的频次有关:
其中, 表示测试数据集 T 中,分类 y 的第 i 个特征出现的次数,而 表示分类 y 的所有特征出现的次数。
平滑系数 α ≧ 0, 为了防止后续计算中出现测试样本中没有的特征,概率为0的情况。设置 α = 1,叫做Laplace平滑,而 α < 1,叫做 Lidstone平滑。
1.9.3. Bernoulli Naive Bayes
BernoulliNB 用于数据分布为多项贝努利分布的朴素贝叶斯模型训练和预测;也就是说有多个特征,并且每个特征的值为二分类变量。因此,要就样本特征被表示成二分类的向量;如果包含任何其他数据, BernoulliNB 会将其转化为二分类(参数 binarize 可控制转化方法)。
贝努力朴素贝叶斯的判断规则基于:
与多项式贝努力判断规则不同, in that it explicitly penalizes the non-occurrence of a feature that is an indicator for class , where the multinomial variant would simply ignore a non-occurring feature.
文本分类的例子中,词频向量用于测试,并且分类。一些情况下,BernoulliNB 的效果会更好,尤其是一些短的文档。时间允许的情况下,可以尝试两种方法。
References:
- C.D. Manning, P. Raghavan and H. Schütze (2008). Introduction to Information Retrieval. Cambridge University Press, pp. 234-265.
- A. McCallum and K. Nigam (1998). A comparison of event models for Naive Bayes text classification. Proc. AAAI/ICML-98 Workshop on Learning for Text Categorization, pp. 41-48.
- V. Metsis, I. Androutsopoulos and G. Paliouras (2006). Spam filtering with Naive Bayes – Which Naive Bayes? 3rd Conf. on Email and Anti-Spam (CEAS).
1.9.4. Out-of-core naive Bayes model fitting
朴素贝叶斯被用于解决大规模的分类问题时,数据训练可能不适合在内存中进行。解决这个问题, MultinomialNB, BernoulliNB, and GaussianNB 可以与 partial_fit配合增量的训练,见例子Out-of-core classification of text documents。两个离散型分类器支持样本权重,GaussianNB 不支持。
与 fit 方法相比, partial_fit 第一次训练时,需要传递所有的分类标签列表。
查看 scikit-learn 中的内容,查看文档 out-of-core learning。
笔记:partial_fit 方法调用朴素贝叶斯模型,可能会损失一部分全局效果。所以建议截取样本尽量接近内存允许的最大值。