zoukankan      html  css  js  c++  java
  • 数据挖掘实践(10):基础理论(十)数学基础(十)概率(六)朴素⻉叶斯

    1、分类

      ⾼、富、帅、⽩、富、美-->俊男|靓⼥

    2、朴素⻉叶斯分类

                 

    3、拉普拉斯平滑

      对于某个数据集,我们考虑到对于某个特征X在训练集中没有出现,那么将会导致整个分类概率变为0,这将会导致分类变得⾮常不合理,所以为了解决零概率的问题,法国数学家拉普拉斯最早提出⽤加1的⽅法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。假定训练样本很⼤时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以⽅便有效的避免零概率问题。
      应⽤举例:
      假设在⽂本分类中,有3个类,C1、C2、C3,在指定的1000个训练样本中,某个词语K1,在各个类中观测计数分别为0,990,10,K1的概率为0,0.99,0.01。对这三个量使⽤拉普拉斯平滑的计算⽅法如下:

    4、举个例⼦

     

    特征
      ⽠蒂:脱落|未脱落
      形状:尖形|圆形
      颜⾊:深绿|浅绿|⻘⾊
    类别
      类别:⽠熟|⽠⽣
    现在有⼀⻄⽠(脱落|圆形|⻘⾊)

    4.1 对于熟⽠
      

     

     

     

     

     

     

     

     4.2 对于⽣⽠

     

     

     

     

     

     

  • 相关阅读:
    二分专题
    数据结构-图
    Linux文件基本属性(以ls -l输出为例解释)
    shell脚本版素数筛
    Linux whereis,which
    Linux外网代理配置
    Linux三剑客
    Elasticsearch集群搭建(Linux)
    测试之路
    我的另一半
  • 原文地址:https://www.cnblogs.com/qiu-hua/p/14321851.html
Copyright © 2011-2022 走看看