zoukankan      html  css  js  c++  java
  • 朴素贝叶斯法(naive Bayes)

    《统计学习方法》(第二版)第4章

    4 朴素贝叶斯法

    生成模型

    4.1 学习与分类

    1. 基于特征条件独立假设学习输入输出的联合概率分布

    2. 基于联合概率分布,利用贝叶斯定理求出后验概率最大的输出

    条件独立假设

    [P(X=x|Y=c_k)=prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) ]

    等于说用于分类的特征在类确定的条件下都是条件独立的。

    联合概率分布(P(X,Y))

    需要学习先验概率分布(P(Y=c_k))和条件概率分布(P(X=x|Y=c_k))

    因为(P(X=x,Y=c_k)=P(Y=c_k)P(X=x|Y=c_k))

    后验概率最大

    将后验概率最大的类作为(x)的类输出。

    [后验概率:P(Y=c_k|X=x)=frac{P(Y=c_k)prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)} {sum_kP(Y=c_k)prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)} ]

    [朴素贝叶斯分类器:y=arg max_{c_k}P(Y=c_k)prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) ]

    等价于期望风险最小化.

    期望风险(R_{exp}(f) = E[L(Y, f(X))])

    选择0-1损失函数,经验风险最小化函数

    [f(x)=arg min_{y in Y} sum_{k=1}^K L(c_k,y)P(c_k|X=x) \ =arg min_{y in Y}P(y≠c_k|X=x) \ =arg min_{y in Y}(1-P(y=c_k|X=x)) \ =arg max_{y in Y}P(y=c_k|X=x) \ ]

    4.2 参数估计

    极大似然估计

    [P(Y=c_k)=frac{sum_{i=1}^NI(y_i=c_k)}{N} ]

    [P(X^{(j)}=a_{jl}|Y=c_k)=frac{sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{sum_{i=1}^NI(y_i=c_k)} ]

    可能会出现所要估计的概率值为0的情况,会影响到后验概率的计算,从而使分类产生偏差。

    朴素贝叶斯算法

    1. 计算先验概率及条件概率
    2. 对于给定的实例(x),计算后验概率
    3. 根据后验概率最大的确定实例(x)的类

    贝叶斯估计

    [P_lambda(Y=c_k)=frac{sum_{i=1}^NI(y_i=c_k)+lambda}{N+Klambda} ]

    [P_lambda (X^{(j)}=a_{jl}|Y=c_k)=frac{sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+lambda}{sum_{i=1}^NI(y_i=c_k)+S_jlambda} ]

    其中(lambda>0),常取(lambda=1),称为拉普拉斯平滑。(K)(Y)取值个数,(S_j)(x)的特征(l)的个数。

  • 相关阅读:
    .net中的正则表达式使用高级技巧 (二)
    经典的LZW算法C语言实现
    .net中的正则表达式使用高级技巧
    Atlas应用程序调试技巧
    从毕业到现在是如何走来的!!!
    关于JS的一些实际问题
    js学习笔记(十四)事件处理模型
    js学习笔记(十一)窗口和框架
    关于css的一些问题
    浏览器布局BUG汇总
  • 原文地址:https://www.cnblogs.com/angelica-duhurica/p/10905631.html
Copyright © 2011-2022 走看看