zoukankan html css js c++ java

朴素贝叶斯分类器

文章目录

朴素贝叶斯分类器

朴素贝叶斯分类器

贝叶斯公式

x代表样本，c代表已知类别
$P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) ( 1 ) P(c|x) = frac{P(c)P(x|c)}{P(x)}qquad(1)$

前提假设：

为了方便计算 $P (x ∣ c)$ ,朴素贝叶斯分类器采用了一个假设:**对已知类别，假设所有属性相互独立。**基于这个假设，式(1)可重写为:
$frac{P(c)P(x|c)}{P(x)}=frac{P(c)}{P(x)}prod_{i=1}^{d}P(x_i|c)$
其中d为属性的数目， $x_i$ 为 $x$ 在第 $i$ 个属性上的取值。

朴素贝叶斯分类器表达式

由于对所有类别来说 $P (x)$ 相同，根据贝叶斯判定准则:对每个样本 $x$ 选择能使后验概率 $P (c ∣ x)$ 最大的类别标记有：
$h_{nb}(x) = arg_{c in y}maxP(c)prod_{i=1}^{d}P(x_i|c)$
一句话概括：朴树贝叶斯分类器的训练过程就是用训练集 $D$ 估计先验概率 $P (c)$ ,为每个属性估计条件概率 $P(x_i|c)$ 。
令 $D_c$ 表示第 $D$ 的第 $c$ 类样本子集，则估计先验概率
$frac{|D_c|}{|D|}$
对于离散属性,令 $D_{{c},{x_i}}$ 表示集合 $D_c$ 第 $i$ 个属性值为 $x_i$ 的子集，则条件概率 $P(x_i|c)=frac{|D_{{c},{x_i}}|}{|D_c|}$

举例

下面是训练集 $D$ ，年龄、收入、学生、信誉为属性, $d = 4$ ，购买计算机为类别，类别数 $y = 2$

编号	年龄	收入	学生	信誉	购买计算机
1	$\leq 30$	高	否	中	否
2	$\leq 30$	高	否	优	否
3	$30 \sim 40$	高	否	中	是
4	$\geq 41$	中	否	中	是
5	$\geq 41$	低	是	中	是
6	$\geq 41$	低	是	优	否
7	$30 \sim 40$	低	是	优	是
8	$\leq 30$	中	否	中	否
9	$\leq 30$	低	是	中	是
10	$\geq 41$	中	是	中	是
11	$\leq 30$	中	是	优	是
12	$30 \sim 40$	中	否	优	是
13	$30 \sim 40$	高	是	中	是
14	$\geq 41$	中	否	优	否

下面是一个测试样本 $x$ ,判断是否购买计算机

编号	年龄	收入	学生	信誉	购买计算机
1	$\leq 30$	中	是	中	?

首先计算先验概率 $P (c)$ ，有:
$P ( 购买计算机 = 是 ) = 9 14 = 0.64 P(购买计算机= 是) = frac{9}{14}=0.64$
$P ( 购买计算机 = 否 ) = 5 14 = 0.36 P(购买计算机= 否) = frac{5}{14}=0.36$
再为每个属性估计条件概率 $P(x_i|c)$
$P_{年龄le30|购买计算机=是}=frac{2}{9}=0.22$
$P_{年龄le30|购买计算机=否}=frac{3}{5}=0.60$
$P_{收入=中|购买计算机=是}=frac{4}{9}=0.44$
$P_{收入=中|购买计算机=否}=frac{2}{5}=0.40$
$P_{学生=是|购买计算机=是}=frac{6}{9}=0.67$
$P_{学生=是|购买计算机=否}=frac{1}{5}=0.20$
$P_{信誉=中|购买计算机=是}=frac{6}{9}=0.67$
$P_{信誉=中|购买计算机=否}=frac{2}{5}=0.40$
所以根据朴素贝叶斯分类器表达式有:
$P_{年龄le30|购买计算机=是} imes P_{收入=中|购买计算机=是} \ imes P_{学生=是|购买计算机=是} imes P_{信誉=中|购买计算机=是}approx 0.03$
$P_{年龄le30|购买计算机=否} imes P_{收入=中|购买计算机=否} \ imes P_{学生=是|购买计算机=否} imes P_{信誉=中|购买计算机=否}approx 0.01$
由于 0.03>0.01，所以朴素贝叶斯分类器将测试样本 $x$ 判别为“购买计算机 = 是”。

拉普拉斯修正(Laplacian correction)

如果有一个测试样本的属性“信誉 = 低”，那么条件概率
$P ( 信誉 = 低 ∣ 购买计算机 = 是 ) = 0 9 = 0 P(信誉 = 低 | 购买计算机=是) = frac{0}{9}=0$ ,即使其他属性明显是“购买计算机= 是”，但分类结果都将是“购买计算机 = 否”。为了避免测试样本中其他属性信息被训练集中未出现的属性值“抹去”，可用拉普拉斯修正。
令 $N$ 表示训练集 $D$ 中可能的类别数， $N_i$ 表示第 $i$ 个属性的取值数则
先验概率为
$P(c)=frac{|D_c|+1}{|D|+N}$
后验概率为
$P(x_i|c)=frac{|D_{c,x_i}|+1}{|D_c|+N_i}$
例如上文例子中,先验概率可以估计为：
$P ^ ( 购买计算机 = 是 ) = 9 + 1 14 + 2 = 0.625 widehat P(购买计算机= 是) = frac{9+1}{14+2}=0.625$
$P ^ ( 购买计算机 = 否 ) = 5 + 1 14 + 2 = 0.375 widehat P(购买计算机= 否) = frac{5+1}{14+2}=0.375$
后验概率可以估计为:
$P ( 年龄 ≤ 30 ∣ 购买计算机 = 是 ) = 2 + 1 9 + 3 = 0.25 P(年龄le30|购买计算机=是)=frac{2+1}{9+3}=0.25$
$P (信誉 = 低 ∣ 购买计算机 = 是)$ 可以估计为:
$P ( 信誉 = 低 ∣ 购买计算机 = 是 ) = 0 + 1 9 + 3 = 0.083 P(信誉 = 低 | 购买计算机=是) = frac{0+1}{9+3}=0.083$

查看全文

相关阅读:
Vulkan Tutorial 06 逻辑设备与队列
 Vulkan Tutorial 05 物理设备与队列簇
 过滤器Filter(2)
Filter过滤器（1）
Java-Web监听器
 Filter案例
 <context:annotation-config/>
@Autowired 和 @Resource
Hibernate各种主键生成策略与配置详解
 eclipse新建workspace使用之前workspace的个性配置

原文地址：https://www.cnblogs.com/PythonFCG/p/13860117.html