机器学习-朴素贝叶斯

zoukankan html css js c++ java

机器学习-朴素贝叶斯
朴素贝叶斯的概念

朴素贝叶斯分类（Naive Bayes Classifier）是一种简单而容易理解的分类方法，看起来很Naive，但用起来却很有效。其原理就是贝叶斯定理，从数据中得到新的信息，然后对先验概率进行更新，从而得到后验概率。

就好比说我们判断一个人的品质好坏，对于陌生人我们对他的判断是五五开，如果说他做了一件好事，那么这个新的信息使我们判断他是好人的概率增加了。朴素贝叶斯分类的优势在于不怕噪声和无关变量，其Naive之处在于它假设各特征属性是无关的。而贝叶斯网络（Bayesian Network）则放宽了变量无关的假设，将贝叶斯原理和图论相结合，建立起一种基于概率推理的数学模型,对于解决复杂的不确定性和关联性问题有很强的优势。

条件概率

条件概率（Conditional Probability）是指在事件B发生的情况下，事件A发生的概率，用 $P (A | B)$

在上方的文氏图中，描述了两个事件A和B，与它们的交集A ∩ B，代入条件概率公式，可推出事件A发生的概率为

$P (A | B) = \frac{P (A ⋂ B)}{P (B)}$

对该公式做一下变换可推得 $P (A ⋂ B) = P (A | B) P (B) 与 P (A ⋂ B) = P (B | A) P (A)$

同理可得 $P (A | B) P (B) = P (B | A) P (A)$

全概率公式

全概率公式是将边缘概率与条件概率关联起来的基本规则，它表示了一个结果的总概率，可以通过几个不同的事件来实现。

全概率公式将对一复杂事件的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题，公式为

$P (B) = \sum_{i = 1}^{n} P (A_{i}) P (B | A_{i})$

假定一个样本空间S，它是两个事件A与C之和，同时事件B与它们两个都有交集，如下图所示：

那么事件B的概率可以表示为 $P (B) = P (B ⋂ A) + P (B ⋂ C)$

通过条件概率，可以推断出 $P (B ⋂ A) = P (B | A) P (A)$

这就是全概率公式，即事件B的概率等于事件A与事件C的概率分别乘以B对这两个事件的条件概率之和。

贝叶斯定理

贝叶斯公式：

$P (A | B) = \frac{P (B | A) P (A)}{P (B)}$
- $P (A | B)$
- $P (B | A)$
- $P (A)$
- $P (B | A) P (B)$
- 根据这些术语，贝叶斯定理表述为： 后验概率 = 标准相似度 * 先验概率。
朴素贝叶斯分类的原理

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

我们设一个待分类项 $X = f_{1}, f_{2}, \dots, f_{n}$

然后需要计算 $P (C_{1} | X), P (C_{2} | X), \dots, P (C_{m} | X)$

$P (f_{1} | C_{1}), P (f_{2} | C_{1}), \dots, P (f_{n} | C_{1}),, P (f_{1} | C_{2}), P (f_{2} | C_{2}), \dots P (f_{n} | C_{2}), P (f_{1} | C_{m}), P (f_{2} | C_{m}), \dots, P (f_{n} | C_{m})$

如果 $P (C_{k} | X) = M A X (P (C_{1} | X), P (C_{2} | X), \dots, P (C_{m} | X))$

朴素贝叶斯会假设每个特征都是独立的，根据贝叶斯定理可推得： $P (C_{i} | X) = P (X | C_{i}) P (C_{i}) P (X)$

$P (X | C_{i}) P (C_{i}) = P (f_{1} | C_{i}) P (f_{2} | C_{i}) \dots, P (f_{n} | C_{i}) P (C_{i}) = P (C_{i}) \prod_{i = 1}^{n} P (f_{i} | C_{i})$

根据上述的公式推导，朴素贝叶斯的流程可如下图所示：

朴素贝叶斯的算法模型

在朴素贝叶斯中含有以下三种算法模型：
- Gaussian Naive Bayes：适合在特征变量具有连续性的时候使用，同时它还假设特征遵从于高斯分布（正态分布）。
  
  假设我们有一组人体特征的统计资料，该数据中的特征：身高、体重和脚掌长度等都为连续变量，很明显我们不能采用离散变量的方法来计算概率，由于样本太少，也无法分成区间计算，那么要怎么办呢？解决方法是假设特征项都是正态分布，然后通过样本计算出均值与标准差，这样就得到了正态分布的密度函数，有了密度函数，就可以代入值，进而算出某一点的密度函数的值。
- MultiNomial Naive Bayes：与Gaussian Naive Bayes相反，多项式模型更适合处理特征是离散变量的情况，该模型会在计算先验概率 $P (C_{m})$
  
  $P (C_{m}) = \frac{T_{c m} + a}{T + m a}$
  
  其中T为总的样本数，m为总类别数， $T * c m 即类别为即类别为 C_{m}$
  
  $P (F_{n} | C_{m}) = \frac{T_{c m} f_{n} + a}{T_{c m} + a n}$
  
  n为特征的个数， $T_{c m} f_{n}$
  
  当平滑值a = 1，被称作为Laplace平滑，
  
  当平滑值a < 1，被称为Lidstone平滑。
  
  它的思想其实就是对每类别下所有划分的计数加1，这样如果训练样本数量足够大时，就不会对结果产生影响，并且解决了 $P (F | C)$
- Bernoulli Naive Bayes：Bernoulli适用于在特征属性为二进制的场景下，它对每个特征的取值是基于布尔值的，一个典型例子就是判断单词有没有在文本中出现。
查看全文

相关阅读:
代码查错1
代码查错
 垃圾回收器
 面试题（操作语句）
面试题（JVM加载机制）
面试题（线程）
异常
 IO流
 es5 学习笔记
 ECMAScript5 Object的新属性方法

原文地址：https://www.cnblogs.com/ZFJ1094038955/p/10647464.html

机器学习-朴素贝叶斯

朴素贝叶斯的概念

条件概率

P(A|B)=P(A⋂B)P(B)P(A|B)=P(A⋂B)P(B)。

全概率公式

P(B)=∑ni=1P(Ai)P(B|Ai)P(B)=∑i=1nP(Ai)P(B|Ai)

贝叶斯定理

贝叶斯公式：

P(A|B)=P(B|A)P(A)P(B)P(A|B)=P(B|A)P(A)P(B)

朴素贝叶斯分类的原理

P(X|Ci)P(Ci)=P(f1|Ci)P(f2|Ci)…,P(fn|Ci)P(Ci)=P(Ci)∏ni=1P(fi|Ci)P(X|Ci)P(Ci)=P(f1|Ci)P(f2|Ci)…,P(fn|Ci)P(Ci)=P(Ci)∏i=1nP(fi|Ci)

朴素贝叶斯的算法模型

P(Cm)=Tcm+aT+maP(Cm)=Tcm+aT+ma

P(Fn|Cm)=Tcmfn+aTcm+anP(Fn|Cm)=Tcmfn+aTcm+an

$P (A | B) = \frac{P (A ⋂ B)}{P (B)}$

$P (B) = \sum_{i = 1}^{n} P (A_{i}) P (B | A_{i})$

`贝叶斯公式`：

$P (A | B) = \frac{P (B | A) P (A)}{P (B)}$

$P (X | C_{i}) P (C_{i}) = P (f_{1} | C_{i}) P (f_{2} | C_{i}) \dots, P (f_{n} | C_{i}) P (C_{i}) = P (C_{i}) \prod_{i = 1}^{n} P (f_{i} | C_{i})$

$P (C_{m}) = \frac{T_{c m} + a}{T + m a}$

$P (F_{n} | C_{m}) = \frac{T_{c m} f_{n} + a}{T_{c m} + a n}$