zoukankan      html  css  js  c++  java
  • 数据挖掘实践(10):基础理论(十)数学基础(十)概率(六)朴素⻉叶斯

    1、分类

      ⾼、富、帅、⽩、富、美-->俊男|靓⼥

    2、朴素⻉叶斯分类

                 

    3、拉普拉斯平滑

      对于某个数据集,我们考虑到对于某个特征X在训练集中没有出现,那么将会导致整个分类概率变为0,这将会导致分类变得⾮常不合理,所以为了解决零概率的问题,法国数学家拉普拉斯最早提出⽤加1的⽅法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。假定训练样本很⼤时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以⽅便有效的避免零概率问题。
      应⽤举例:
      假设在⽂本分类中,有3个类,C1、C2、C3,在指定的1000个训练样本中,某个词语K1,在各个类中观测计数分别为0,990,10,K1的概率为0,0.99,0.01。对这三个量使⽤拉普拉斯平滑的计算⽅法如下:

    4、举个例⼦

     

    特征
      ⽠蒂:脱落|未脱落
      形状:尖形|圆形
      颜⾊:深绿|浅绿|⻘⾊
    类别
      类别:⽠熟|⽠⽣
    现在有⼀⻄⽠(脱落|圆形|⻘⾊)

    4.1 对于熟⽠
      

     

     

     

     

     

     

     

     4.2 对于⽣⽠

     

     

     

     

     

     

  • 相关阅读:
    [Codeforces 933A]A Twisty Movement
    [Codeforces 100633J]Ceizenpok’s formula
    [HAOI 2011]向量
    [JSOI 2008]最大数
    [Codeforces 750E]New Year and Old Subsequence
    [BZOJ 3439]Kpm的MC密码
    [TJOI 2013]单词
    [SCOI 2011]糖果
    [BZOJ 2160]拉拉队排练
    [AtCoder arc090F]Number of Digits
  • 原文地址:https://www.cnblogs.com/qiu-hua/p/14321851.html
Copyright © 2011-2022 走看看