zoukankan      html  css  js  c++  java
  • 统计学习方法 -> 朴素贝叶斯算法

      需要知道的是在什么时候可以用朴素贝叶斯算法:需要保证特征条件独立。

      主要过程是学习输入和输出的联合概率分布。

      预测的时候,就可以根据输入获得后验概率对应的输出y。

      先验概率:已知输出,求输入。后验概率相反。

      简单来说朴素贝叶斯算法,就是在对样本进行学习之后,到了需要做决策的时候,给定x,给出最大概率的y。这个本质上就是一个典型的后验概率模型。不过在该模型的算法推到上,还用到了先验概率的计算。但注意:最终朴素贝叶斯就是一种后验概率模型求P(y|x)。

      后验概率模型有一个好处,相当于期望风险最小化。这个很好理解,我所取得的y是所有可能性之中概率最大的。那么我的选择承担的错误的风险自然就减小了。

      

    参数估计

      到了参数选取的时候了。

      估计流程:

      1>  确定y的不同取值的概率

      2> 计算y不同取值的时候 x|y 的概率。

      3>  后验概率公式求解。 

    Laplace 平滑:

      p(y) 和 p(x|y)在计算时候都应该进行Laplace平滑。因为朴素贝叶斯是独立同分布的。p(xj|y)某一项为0的时候。整个函数公式值全为0。这是极其有问题的。所以进行拉普拉斯平滑极为必要。

    优点:

      对小规模的数据表现很好,适合多分类任务,适合增量式训练。

    缺点:

      支持的特征数量相对较少。因为特征数量多了,就比较难保证所有特征是独立同分布的了。对输入数据特别敏感。如果输入数量小,那么很可能其中一个数据就能改变结果。

  • 相关阅读:
    android测试点汇总
    Java Web应用调优线程池
    大型网站架构技术一览
    如何用消息系统避免分布式事务
    VMware Tools安装
    Git
    构架分布式队列编程
    排序算法概述
    ThreadLocal使用和原理
    JVM常用参数配置
  • 原文地址:https://www.cnblogs.com/chengxuyuanxiaowang/p/4767964.html
Copyright © 2011-2022 走看看