朴素贝叶斯分类是基于贝叶斯定理的一种分类方法。通过先验概率,计算后验概率,选择具有最大后验概率的类别作为其类别。
一个随机变量(X)有(n)个属性{$ { A_1,A_2,...A_n } (},对于一个样本x属性值为{) { x_1,x_2,...x_n }(}。 要估计x的类别,即类别属性的值Y的取值,可以通过估计其属于每个类别的概率,)P(Y=c_i|X=x)(,简写)P(c_i|x)$。
根据贝叶斯公式:
(P(c_i|x)=P(x|c_i)p(c_i)/p(x))
实际估计类别时先验概率(p(c_i))未知,通常假定类是等概率的,(p(x))的值不会发生变化,所以问题可以转化为求(P(x|c_i))最大。
朴素假设:类条件独立。
(p(x|c_i)=p(x_1|c_i)p(x_2|c_i)...p(x_n|c_i))
而(p(x_j|c_i))可以通过实际数据估计得到。