zoukankan      html  css  js  c++  java
  • 机器学习实战读书笔记(3)朴素贝叶斯

    贝叶斯定理

    要理解贝叶斯推断,必须先理解贝叶斯定理。后者实际上就是计算"条件概率"的公式。

    所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。

    根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。

    因此,

    同理可得,

    所以,

    这就是条件概率的计算公式。

    性别分类的例子

    本例摘自维基百科,关于处理连续变量的另一种方法。

    下面是一组人类身体特征的统计资料。

      性别  身高(英尺) 体重(磅)  脚掌(英寸)

      男    6       180     12 
      男    5.92     190     11 
      男    5.58     170     12 
      男    5.92     165     10 
      女    5       100     6 
      女    5.5      150     8 
      女    5.42     130     7 
      女    5.75     150     9

    已知某人身高6英尺、体重130磅,脚掌8英寸,请问该人是男是女?

    根据朴素贝叶斯分类器,计算下面这个式子的值。

    P(身高|性别) x P(体重|性别) x P(脚掌|性别) x P(性别)

    这里的困难在于,由于身高、体重、脚掌都是连续变量,不能采用离散变量的方法计算概率。而且由于样本太少,所以也无法分成区间计算。怎么办?

    这时,可以假设男性和女性的身高、体重、脚掌都是正态分布,通过样本计算出均值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以把值代入,算出某一点的密度函数的值。

    比如,男性的身高是均值5.855、方差0.035的正态分布。所以,男性的身高为6英尺的概率的相对值等于1.5789(大于1并没有关系,因为这里是密度函数的值,只用来反映各个值的相对可能性)。

    有了这些数据以后,就可以计算性别的分类了。

      P(身高=6|男) x P(体重=130|男) x P(脚掌=8|男) x P(男) 
        = 6.1984 x e-9

      P(身高=6|女) x P(体重=130|女) x P(脚掌=8|女) x P(女) 
        = 5.3778 x e-4

    可以看到,女性的概率比男性要高出将近10000倍,所以判断该人为女性。

  • 相关阅读:
    匈牙利算法(二分图匹配)
    匈牙利算法(二分图匹配)
    Redis 笔记与总结6 Redis 高级应用之 事务处理、持久化操作、pub_sub、虚拟内存
    大数据的五大误区及其破解之道
    大数据的五大误区及其破解之道
    统计之 - 协方差_数据分析师
    统计之 - 协方差_数据分析师
    数据挖掘之七种常用的方法_数据分析师
    数据挖掘之七种常用的方法_数据分析师
    方差分析一般线性模型
  • 原文地址:https://www.cnblogs.com/davidwang456/p/8609526.html
Copyright © 2011-2022 走看看