zoukankan      html  css  js  c++  java
  • 朴素贝叶斯

    一、数学基础

    1、先验概率,又称边缘概率:

    2、后验概率,又称条件概率

    条件概率(非独立事件才会遇到条件概率)
    P(A,B)=P(A)*P(B|A)
    例:五个乒乓球,3新2旧,无放回抽取两次,A:第一次取到新球 B:第二次取到新球,求第一次取到新球的条件下第二次取到新球的概率
    P(B|A)=P(A,B)/P(A)
    P(A)=3/5
    P(B)=3/5*2/4+2/5*3/4=12/20
    P(A,B)=3/5*2/4=6/20   A发生的概率*在A已发生的情况下B能发生的概率(目前的状态是没有认定A会发生,所以必须先求出A发生的概率
    P(B|A)=(6/20)/(3/5)=1/2  目前的状态是认定A已发生,B能发生的概率(即,第一次已经抽到新球了,那么第二次抽到的概率是多少呢?就是2/4,剩余四个,2个是新的)

    3、贝叶斯公式:

    二、朴素贝叶斯

    1、为什么称为朴素?

        朴素贝叶斯分类法假设各个特征是相互独立互不影响的,即类条件独立性

    2、朴素贝叶斯算法?

        设D为数据集;每条数据有n个特征,A表示特征向量,X表示特征值向量;有m个分类,用C表示

        对于一条给定的数据,分别求取p(C1|X) 、p(C2|X)......p(Cm|X),最大的p(Ci|X)即为这条数据的分类

    3、如果求最大的p(Ci|X)?

    (1)P(X)作为先验概率,与P(C)无关,对所有类为常数,所以不需考虑

    (2)P(Ci) =|Di|/|D|   可以用Ci类的个数/训练数据集总数求得

    (3)P(X|Ci)  根据最初的假设,即类条件独立性,可得

             

         P(xi|Ci):Ci类中Ai特征取值为xi 的个数/Ci类的个数(注意:因为我们考虑的是分类,所以属性A的值是非连续的,对于非连续的情况暂不考虑)

    (4)求得最大的那个p(Ci|X),Ci即为该条数据对应的分类

    四、贝叶斯网络(待续)

    五、隐马尔科夫模型(待续)

    贝叶斯估计与极大似然估计

  • 相关阅读:
    Redis-10 Bitmap位图基本操作
    Redis学习-09 hyperloglog基本操作
    Redis学习-08 Geospatial地理位置详解
    Redis学习-07 Zset有序集合
    Redis学习-06 Hash哈希基本操作
    部分知识路径
    Docker 容器中安装vi、ifconfig、ping命令
    Java new一个对象的过程超级详解
    SVN
    创建ssm项目
  • 原文地址:https://www.cnblogs.com/naonaoling/p/4174494.html
Copyright © 2011-2022 走看看