朴素贝叶斯法可以用来做多分类问题。阅读本篇之前需要先去了解一下贝叶斯公式。
先验概率:事情还没有发生,根据以往的经验来判断事情发生的概率。是“由因求果”的体现,是单独事件概率,如 $P(X),P(Y)$。
后验概率:事情已经发生了,有多种原因,判断事情的发生是由哪一种原因引起的。是“由果求因”,一般的形式为 $P(X|Y)$。
先回顾一下统计学习方法的模型形式:
1)决策模型:$Y = f(X)$,给一个输入 $X$,通过决策函数直接得到输出。
2)条件概率分布:$P(Y|X)$,通过这个分布,给定一个输入 $X$,输出 $Y$ 不同,概率不同,选择概率最大时对应的那个输出 $Y$。
以上两种都称为判别模型,还有一种生成模型,生成模型也是一种条件概率分布,但它是通过联合概率分布求得的。
我们来比较一下这三种模型:
1)$Y = f(X)$:这种模型不考虑 $X,Y$ 之间的随机性。
2)$P(Y|X)$:只考虑 $Y$ 的随机性,即给定 $X$,得到 $Y$ 的一个分布。
3)$P(Y|X) = frac{P(X,Y)}{P(X)}$:同时考虑了 $X$ 和 $Y$ 的随机性。
朴素贝叶斯法正是一种生成模型,所以它并不是直接统计条件概率,而是先计算联合概率分布。
朴素贝叶斯法基本概念
输入:为随机向量 $x = (x^{(1)}, x^{(2)}, cdots , x^{(n)})^{T}$,设每个特征 $x^{j}$ 可能取值的集合为 $left { a_{j1},a_{j2},...,a_{jS_{j}} ight }$,$j=1,2,...,n$。
输出:为随机变量(不是向量),$y in left { c_{1},c_{2}, cdots ,c_{K} ight }$。
条件独立:朴素贝叶斯对输入变量做了这么一个假设,即输入向量 $x$ 的各个特征之间条件独立,尽管这些特征相互依赖或者有些特征由其他特征决定。
$$Pleft { X = x ;|; Y = c_{k}
ight } = Pleft { X^{(1)} = x^{(1)}, X^{(2)} = x^{(2)}, cdots , X^{(n)} = x^{(n)} ;|; Y = c_{k}
ight } \
= Pleft { X^{(1)} = x^{(1)} ;|; Y = c_{k}
ight } cdot Pleft { X^{(2)} = x^{(2)} ;|; Y = c_{k}
ight } cdot ... cdot Pleft { X^{(n)} = x^{(n)} ;|; Y = c_{k}
ight } \
= prod_{j=1}^{n} Pleft { X^{(j)} = x^{(j)} ;|; Y = c_{k}
ight }, ;;; k = 1,2,...,K$$
假设训练数据集有 $m$ 组,即
$$T = left {(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) ight }$$
“朴素”的由来正是因为这个条件独立的假设。
通过上面的定义,我们有 $m$ 个样本,每个样本有 $n$ 个特征,特征输出有 $K$ 个类别。
朴素贝叶斯算法思想
我们的目标是求 $P(Y|X)$,考虑条件概率
$$P(Y|X) = frac{P(X,Y)}{P(X)} = frac{P(X|Y)P(Y)}{P(X)}$$
朴素贝叶斯法通过训练集估计总体的联合概率分布 $P(X,Y)$,具体地,学习以下先验概率分布和条件概率分布:
$$P(Y = c_{k}), ; k = 1,2,3,...,K$$
$$Pleft { X = x ;|; Y = c_{k} ight } = Pleft { X^{(1)} = x^{(1)}, X^{(2)} = x^{(2)}, cdots , X^{(n)} = x^{(n)} ;|; Y = c_{k} ight }, ; i=1,2,...,m;k=1,2,...,K$$
但这个计算方法事实上不切实际,已知 $x^{(j)}$ 的可能取值有 $S_{j}$ 个,$Y$ 的可能取值有 $K$ 个,则参数的不同组合方式有
$$Kprod_{j=1}^{n}S_{j}$$
在实际工程中,特征的数量非常大,也就是 $j$ 很大,假设是 $1000$,而特征的取值数量实际更多,因为很多连续的特征值一般转化为离散值来
做,所以 $S$ 也很大(即使原始问题就是离散问题也不小),假设也是 $1000$ ,那么参数个数也达到了 $1000^{1001}$ 的数量级,更别说动辄大数据时
代下百万特征的问题。
为了降低计算的复杂度,朴素贝叶斯的假设便排上用场,因为各个特征之间条件独立,所以没必要一股脑的将所有特征联合起来。
$$Pleft { X = x ;|; Y = c_{k} ight } = prod_{j=1}^{n}Pleft ( X^{(j)} = x^{(j)} ;|; Y = c_{k} ight ),; i=1,2,...,m; k=1,2,..,K$$
于是数量级变成了 $1000^{3}$。最后得到的条件概率为
$$Pleft ( Y = c_{k} ;|; X = x
ight ) = frac{P(X = x, Y = c_{k})}{P(X = x)}
= frac{Pleft ( X = x ;|; Y = c_{k}
ight )Pleft ( Y = c_{k}
ight )}{P(X = x)} \
= frac{Pleft ( Y = c_{k}
ight ) cdot prod_{j = 1}^{n}Pleft ( X^{(j)} = x^{(j)} ;|; Y = c_{k}
ight )}{P(X = x)}, ; i=1,2,...,m; k=1,2,..,K$$
每当输入一个特征向量 $x$(属于测试集),在寻找使 $P(Y|X)$ 最大的 $y$ 是,分母是不变的,所以只需要考虑使分子最大即可。
$$y = arg ; max_{c_{k}} ; Pleft ( Y = c_{k} ight ) cdot prod_{j = 1}^{n}Pleft ( X^{(j)} = x_{}^{(j)} ;|; Y = c_{k} ight )$$
朴素贝叶斯算法参数估计
1)极大似然估计
其实就是用样本估计总体,感觉这个名字不太贴切,可以这么想,如果用样本的计算结果作为总体的概率,那这组样本
不就是最有可能出现的吗?
$$P(Y = c_{k}) = frac{sum_{i=1}^{m}I(y_{i} = c_{k})}{m}, ; k = 1,2,3,...,K$$
这就得到了 $K$ 个概率值。
$$Pleft ( X^{left ( j ight )} = a_{jl} ;|; Y = c_{k} ight ) = frac{sum_{i=1}^{m}I(x_{i}^{(j)} = a_{jl},y_{i} = c_{k})}{sum_{i=1}^{m}I(y_{i} = c_{k})},j=1,2,...,n; l = 1,2,...,S_{j};k=1,2,..,K$$
这就得到了 $Ksum_{j=1}^{n}S_{j}$ 个概率值,所以一共得到的概率值有
$$Kleft ( sum_{j=1}^{n}S_{j} + 1 ight )$$
2)贝叶斯估计
但是有一个问题,训练集样本没办法覆盖所有的可能取值,这就可能导致预测的时候,所计算的先验概率为 $0$。
$$P(Y = c_{k}) = frac{sum_{i=1}^{m}I(y_{i} = c_{k}) + lambda}{m + Klambda}, ; k = 1,2,3,...,K$$
$$Pleft ( X^{left ( j ight )} = a_{jl} ;|; Y = c_{k} ight ) = frac{sum_{i=1}^{m}I(x_{i}^{(j)} = a_{jl},y_{i} = c_{k}) + lambda}{sum_{i=1}^{m}I(y_{i} = c_{k}) + S_{j}lambda},j=1,2,...,n; l = 1,2,...,S_{j};k=1,2,..,K$$
分母多加的那一项是为了时概率和保持为 $1$,不然违背了概率理论。引入 $lambda$ 也称为拉普拉斯平滑。