朴素贝叶斯法（naive Bayes）

zoukankan html css js c++ java

朴素贝叶斯法（naive Bayes）
《统计学习方法》（第二版）第4章

4 朴素贝叶斯法

生成模型

4.1 学习与分类
1. 基于特征条件独立假设学习输入输出的联合概率分布
2. 基于联合概率分布，利用贝叶斯定理求出后验概率最大的输出
条件独立假设

[P(X=x|Y=c_k)=prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) ]
等于说用于分类的特征在类确定的条件下都是条件独立的。

联合概率分布(P(X,Y))

需要学习先验概率分布(P(Y=c_k))和条件概率分布(P(X=x|Y=c_k))

因为(P(X=x,Y=c_k)=P(Y=c_k)P(X=x|Y=c_k))

后验概率最大

将后验概率最大的类作为(x)的类输出。

[后验概率：P(Y=c_k|X=x)=frac{P(Y=c_k)prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)} {sum_kP(Y=c_k)prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)} ]
[朴素贝叶斯分类器：y=arg max_{c_k}P(Y=c_k)prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) ]
等价于期望风险最小化.

期望风险(R_{exp}(f) = E[L(Y, f(X))])

选择0-1损失函数，经验风险最小化函数

[f(x)=arg min_{y in Y} sum_{k=1}^K L(c_k,y)P(c_k|X=x) \ =arg min_{y in Y}P(y≠c_k|X=x) \ =arg min_{y in Y}(1-P(y=c_k|X=x)) \ =arg max_{y in Y}P(y=c_k|X=x) \ ]
4.2 参数估计

极大似然估计

[P(Y=c_k)=frac{sum_{i=1}^NI(y_i=c_k)}{N} ]
[P(X^{(j)}=a_{jl}|Y=c_k)=frac{sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{sum_{i=1}^NI(y_i=c_k)} ]
可能会出现所要估计的概率值为0的情况，会影响到后验概率的计算，从而使分类产生偏差。

朴素贝叶斯算法
1. 计算先验概率及条件概率
2. 对于给定的实例(x)，计算后验概率
3. 根据后验概率最大的确定实例(x)的类
贝叶斯估计

[P_lambda(Y=c_k)=frac{sum_{i=1}^NI(y_i=c_k)+lambda}{N+Klambda} ]
[P_lambda (X^{(j)}=a_{jl}|Y=c_k)=frac{sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+lambda}{sum_{i=1}^NI(y_i=c_k)+S_jlambda} ]
其中(lambda>0)，常取(lambda=1)，称为拉普拉斯平滑。(K)为(Y)取值个数，(S_j)为(x)的特征(l)的个数。
查看全文

相关阅读:
vim文本替换命令
 Python线程优先级队列（Queue）
Python线程同步
 Python使用Threading模块创建线程
 Python的isdigit()和isalpha()
python判断unicode是否是汉字，数字，英文，或者其他字符
 理解Python的With语句
 K-means聚类算法（转）
先验概率、后验概率以及共轭先验（转）
经典动态规划python实现

原文地址：https://www.cnblogs.com/angelica-duhurica/p/10905631.html

朴素贝叶斯法（naive Bayes）

4 朴素贝叶斯法

4.1 学习与分类

条件独立假设

联合概率分布(P(X,Y))

后验概率最大

4.2 参数估计

极大似然估计

朴素贝叶斯算法

贝叶斯估计