zoukankan      html  css  js  c++  java
  • 朴素贝叶斯算法 推导

    朴素贝叶斯算法主要用来解决分类问题,比如通常的二分类,多分类。

    1、数学知识:

    贝叶斯定理:

    特征条件独立:

    1、朴素贝叶斯

    输入空间:

    输出空间:y={C1,C2,…,CK}。

    训练集:T={(x1,y1),(x2,y2),…,(xN,yN)}。

    对于每个实例,其P(X,Y)独立同分布。在进行分类之前,需要先将计算先验概率和条件概率然后据此计算出后验概率。

    1)先验概率分布:

    P(Y=Ck),k=1,2,..,K。

    先验概率的极大似然估计:

    2)条件概率分布:

    设第j个特征可能取值的集合为:{aj1,aj2,..,asj}

    则极大似然估计:

      说明:每个实例有n个特征,分别为x1,x2,..,xn,每个特征分别有s1,s2,…,sn种取值,即特征xi有si种取值。则计算该条件概率分布的时间复杂度为:O(s1*s2*…*sn *K)。时间复杂度非常的高。

    3)对新的实例进行分类:

             为了计算将新的实例进行分类,我们需要计算该实例属于每类的后验概率,最终将此实例分给后验概率最大的类。

    后验概率为:

    在此需要用到条件独立的假设,即在分类确定的情况下,x的各特征相互独立。因为用到了此假设故而在贝叶斯前面加了朴素二字。于是有:

    所以有:

    由于对同一个实例,P(X=x)的概率相通同,故而只需考虑分子部分即可。

    2、朴素贝叶斯的改进

             在计算条件概率时,有可能出现极大似然函数为0的情况,这时需要在分子分母上添加上一个正数,使得其值不为0.

    同样,先验概率的贝叶斯估计也需要改进:

    3、后验概率最大化

             朴素贝叶斯将实例分到后验概率最大的类中,等价于0-1损失函数时期望风险最小化。

    0-1损失函数为:

    期望风险为:

    为了使期望风险最小化,只需对X=x逐个极小化,

    即通过期望风险最小化,得到了后验概率最大化。

    最后附加一些基本概念:

    概率:已知一些参数,预测接下来的观测结果;

    似然性:已知某些观测结果,预测其参数;

    似然函数:统计模型中关于参数的函数;

    最大似然估计:在已知试验结果的情况下,用来估计满足这些样本分布的参数,把可能性最大的参数作为真实的参数,即似然函数取最大值时相应的参数最为合理。

    参考文献:

    [1] 李航,统计学习方法。

    [2] 皮果提, http://blog.csdn.net/itplus/article/details/26549871

    [3] http://blog.csdn.net/yanqingan/article/details/6125812

  • 相关阅读:
    Pascal's Triangle II
    Pascal's Triangle
    Best Time to Buy and Sell Stock II
    Best Time to Buy and Sell Stock
    Populating Next Right Pointers in Each Node
    path sum II
    Path Sum
    [转载]小波时频图
    [转载]小波时频图
    [转载]Hilbert变换及谱分析
  • 原文地址:https://www.cnblogs.com/liuwu265/p/4685361.html
Copyright © 2011-2022 走看看