zoukankan      html  css  js  c++  java
  • 朴素贝叶斯

    Loading [MathJax]/jax/output/HTML-CSS/fonts/STIX/fontdata.js
    ​+ 朴素贝叶斯法是基于贝叶斯定理特征条件独立假设的分类方法。

    • 对于给定的训练集,首先假设学习输入/输出的联合概率分布;然后基于次模型,利用贝叶斯定理求出喉炎概率最大的输出y。

    朴素贝叶斯方法的学习与分类

    基本方法

    • 名词公式:
    • 输入空间:(Xsubseteq R^n)
    • 输出空间:(Y = {c_1, c_2, ..., c_K})
    • 训练数据集合:(T={(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)})
    • 先验概率分布:(P(Y=c_k), k=1,2,...,K)
    • 条件概率分布:(P(X=x|Y=c_k) = P(X^1=x^1, X^2=x^2, ..., X^n=x^n|Y=c_k))
    • 后验概率(贝叶斯定理):(P(Y=c_k|X=x) = frac{P(X=x|Y=c_k)P(Y=c_k)} {sum_k P(X=x|Y=c_k)P(Y=c_k)})

    计算过程

    • 计算后验概率(朴素贝叶斯分类器的基本公式):

    [P(Y=c_k|X=x) = frac{P(Y=c_k) prod_j P(X^j=x^j|Y=c_k) } {sum_k P(Y=c_k) prod_j P(X^j=x^j|Y=c_k)} ]

    • 朴素贝叶斯分类器可表示为:

    [y=f(x) =underset{c_k}{argmax} frac{P(Y=c_k) prod_j P(X^j=x^j|Y=c_k) } {sum_k P(Y=c_k) prod_j P(X^j=x^j|Y=c_k)} ]

    • 上式中由于坟墓都相同,所以上式可以简化为:

    [y=f(x) =underset{c_k}{argmax} P(Y=c_k) prod_j P(X^j=x^j|Y=c_k) ]


    朴素贝叶斯法的参数估计

    极大似然估计

    • 输入:训练数据(T),其中(x_i=(x^1_i, x^2_i, ..., x^n_i))

    • 输出:实例的分类。

    学习过程

    1. 计算先验概率以及条件概率

    [P(Y=c_k) = frac{sum_{i=1}^{N} I(y_i=c_k) } {N}, k=1, 2, ..., K ]

    [P(X^j=a_{jl}|Y=c_k) = frac{I(x^j_i=a_{jl}, y_i=c_k)} {sum_{i=1}^N I(y_i=c_k)}, j=1, 2, ..., n; l=1, 2, ..., S_j; k=1, 2, ..., K ]

    1. 对于给定的实例(x=(x^1, x^2, ..., x^n)),计算后验概率

    [P(Y=c_k) prod_{j=1}^{n} P(X^j=x^j|Y=c_k) ]

    1. 去定实例的分类

    [y=underset{c_k} {arg max} P(Y=c_k) prod_{j=1}^{n} P(X^j=x^j|Y=c_k) ]

    贝叶斯估计

    • 由于极大似然估计可能出现索要估计的概率为0的情况,这时会影响到后验概率的计算结果,使分类出现偏差。因此可以采用贝叶斯估计。

    • 条件概率的贝叶斯估计是:

    [P_{lambda}(X^j=x_{jl}|Y=c_k) = frac {sum_{i=1}^N I(x^j_i = a_{jl}, y=c_k) + lambda} {sum_{i=1}^N I(y_i=c_k) + S_j lambda}, lambda geq 0 ]

    等价于在各个取值的频数上赋予一个正数(lambda)

    (lambda=0)为极大似然估计;(lambda=1)时,称为拉普拉斯平滑

  • 相关阅读:
    浅谈命令混淆
    为你解惑之Silverlight经典10问详解 (转载)
    Prism 简介
    Prism学习笔记(二)简单的MVVM模式
    Prism学习笔记(一) 从Hello World开始
    修改Oracle数据库序列
    将身份证号转换为年龄
    获取文件类型
    下划线转驼峰
    驼峰转下划线
  • 原文地址:https://www.cnblogs.com/milkcoffeesugar/p/5764969.html
Copyright © 2011-2022 走看看