zoukankan      html  css  js  c++  java
  • 机器学习——贝叶斯分类器

    1 前言

      贝叶斯学派很古老,但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾,但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。
      贝叶斯学派的思想可以概括为 先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。数据大家好理解,被频率学派攻击的是先验概率,一般来说先验概率就是我们对于数据所在领域的历史经验,但是这个经验常常难以量化或者模型化,于是贝叶斯学派大胆的假设先验分布的模型,比如正态分布,beta分布等。这个假设一般没有特定的依据,因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑,但是在很多实际应用中,贝叶斯理论很好用,比如垃圾邮件分类,文本分类。

    2 概率论基础

    2.1 样本空间的划分

      定义 设$Omega $为试验$E$的样本空间,$B_{1} ,B_{2} ,B_{3} ,...B_{n} $为 E 的一组事件,若
      1:$B_{i}B_{j}=phi ,i,j=1,2....n$
      2:$B_{1}cup B_{2} cup B_{3} cup ...cup B_{n} =Omega $
      则称$B_{1} ,B_{2} ,B_{3} ,...B_{n} $为样本空间$Omega $的一个划分。

    2.2 联合概率

      联合概率指的是包含多个条件且所有条件同时成立的概率,记作 $P(X=a,Y=b)$。

    2.3 条件分布

      条件概率表示在条件 $Y=b$ 成立的情况下,$X=a$ 的概率,记作 $P(X=a|Y=b)$。它具有如下性质:“在条件 $Y=b$ 下 X 的条件分布”也是一种“  $X$ 的概率分布”,因此穷举 $X$ 的可取值之后,所有这些值对应的概率之和为 1 即  $sum limits _aP(X=a|Y=b)=1$

    2.4 联合概率与边缘概率的关系

      $P(X=a)=sum limits _bP(X=a,Y=b)$

    3 贝叶斯定理

    3.1 条件独立公式

      如果 X 和 Y 相互独立,则有:$P(X,Y)=P(X)P(Y)$

    3.2 条件概率公式

        $P(Y|X)=frac{P(X,Y)}{P(X)}$
        $P(X|Y)=frac{P(X,Y)}{P(Y)}$

    3.3 全概率公式

      定义 设$Omega $为试验 E 的样本空间, A 为 E 的事件,$B_{1} ,B_{2} ,B_{3} ,...B_{n} $为$Omega $的一个划分 且 $P(B_{i})>0,(i=1,2...n)$,公式
        $P(A)=P(A|B_{1})P(B_{1})+...+ P(A|B_{n})P(B_{n})=sum_ limits{i=1}^{n}P(B)P(A|B_{i})$

    3.4 贝叶斯公式

        $P(Y|X)=frac{P(X|Y)P(Y)}{P(X)}=frac{P(X|Y)P(Y)}{sum_kP(X|Y=Y_k)P(Y_k)}$

    因上求缘,果上努力~~~~ 作者:每天卷学习,转载请注明原文链接:https://www.cnblogs.com/BlairGrowing/p/14822797.html

  • 相关阅读:
    Nginx的反向代理和负载均衡
    大数据开发——Hive笔记
    Mysql-索引分析查询性能
    数据库原理-事务隔离与多版本并发控制(MVCC)
    并发编程实战--知识图谱
    并发编程实战-线程池
    并发编程实战-保证线程安全方式
    Synchronized和ReentTrantLock二者区别
    并发编程实战-J.U.C核心包
    并发编程实战-ConcurrentHashMap源码解析
  • 原文地址:https://www.cnblogs.com/BlairGrowing/p/14822797.html
Copyright © 2011-2022 走看看