【分类算法】朴素贝叶斯（Naive Bayes）

zoukankan html css js c++ java

【分类算法】朴素贝叶斯（Naive Bayes）

0 - 算法

　　给定如下数据集

$$T={(x_1,y_1),(x_2,y_2),cdots,(x_N,y_N)},$$

假设$X$有$J$维特征，且各维特征是独立分布的，$Y$有$K$种取值。则对于输入$x$，朴素贝叶斯算法的输出为

$$y=argmax_{c_k}P(Y=c_k)prod_j P(X^{(j)}=x^{(j)}|Y=c_k),j=1,cdots,J,k=1,cdots,K,$$

其中先验概率$P(Y=c_k)$和条件概率$P(X^{(j)}=x^{(j)}|Y=c_k)$的极大似然估计在下一节给出。

1 - 推导

　　朴素贝叶斯的基本公式为

$$P(B|A)=frac{P(A|B)P(B)}{P(A)},$$

　　因此，对于输入数据$x$，预测类别$c_k$的概率可以表示为

$$egin{align}P(Y=c_k|X=x)=frac{P(X=x|Y=c_k)P(Y=c_k)}{P(X=x)}end{align}$$

　　且有，

$$egin{align}P(X=x)=P(Y=c_k)sum_{k}P(X=x|Y=c_k)end{align}$$

　　根据特征之间独立分布，又有

$$egin{align}P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},cdots,X^{(J)}=x^{(J)}|Y=c_k)=prod_{j=1}^JP(X^{(j)}=x^{(j)}|Y=c_k)end{align}$$

　　将式$(3)$代入式$(2)$可得

$$egin{align}P(X=x)=sum_{k}P(Y=c_k)prod_{j=1}^JP(X^{(j)}=x^{(j)}|Y=c_k)end{align}$$

　　将式$(3)(4)$代入式$(1)$可得

$$egin{align}P(Y=c_k|X=x)=frac{P(Y=c_k)prod_{j=1}^JP(X^{(j)}=x^{(j)}|Y=c_k)}{sum_{k}P(Y=c_k)prod_{j=1}^JP(X^{(j)}=x^{(j)}|Y=c_k)}end{align}$$

　　注意到，对于所有类别$Y=c_k$，其分母均是一样的，因此最终算法可以将分母去掉而不影响预测概率的相对大小。朴素贝叶斯算法可写成如下形式

$$y=argmax_{c_k}P(Y=c_k|X=x)=argmax_{c_k}P(Y=c_k)prod_{j=1}^JP(X^{(j)}=x^{(j)}|Y=c_k),$$

由上式可知，朴素贝叶斯算法只需要对$P(Y=c_k)$和$P(X^{(j)}=x^{(j)}|Y=c_k)$进行参数估计（极大似然估计）即可。

　　先验概率$P(Y=c_k)$的极大似然估计可以表示为

$$P(Y=c_k)=frac{sum_{j=1}^N I(y_i=c_k)}{N}, k=1,2,cdots,K,$$

　　条件概率$P(X^{(j)}=x^{(j)}|Y=c_k)$的极大似然估计，假设第$j$个特征$x^{(j)}$的取值集合为${a_{j1},a_{j2},cdots,a_{jS_j}}$，则有

$$P(X^{(j)}=a_{jl}|Y=c_k)=frac{sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)}{sum_{i=1}^N I(y_i=c_k)}, j=1,2,cdots,J;l=1,2,cdots,S_j;k=1,2,cdots,K.$$

2 - 参考资料

《统计学习方法》，李航

查看全文

相关阅读:
和大家一起了解Windows Server 2016 License许可证授权方式
 centos的cockpit安装使用
 Nscan-20150223
JexBoss-20170328
InsightScan-20150320
Clusterd-20151119
BBScan-20200419
Astra-20190405
为什么计算机计算时间要从1970年开始
 Appium环境搭建

原文地址：https://www.cnblogs.com/CZiFan/p/11759980.html

【分类算法】朴素贝叶斯（Naive Bayes）

0 - 算法

1 - 推导

2 - 参考资料