朴素贝叶斯分类器

zoukankan html css js c++ java

朴素贝叶斯分类器
朴素贝叶斯

在经典的分类器模型中，Naive Bayes Classifier应该是比较简单的一种了，比之前的决策树要简单得多，但是它虽然简单，但是一点都不简约，在很多情况下它往往能得到比较好的分类效果。

通常的分类问题中，每一个实例都可以用一个特征向量

朴素贝叶斯模型的基本思想就是，通过直接从样本中学习得到条件概率分布

当我们需要判断一个未知实例

上面的第二个等号之所以成立，是因为

在上面的最后一个等式中，

对于后验概率来说，我们可以将其展开:

上式中的

上式中的等号是严格成立的,但是不幸的是，如果根据上述的公式直接计算后验概率，那么空间复杂度是呈指数增长的，真实计算时是完全不可行的。假设

为了解决计算复杂度的问题，朴素贝叶斯模型对条件概率分布作了条件独立性的假设,因为这是一个很强的假设，朴素贝叶斯也是因此而得名的。条件独立性假设是指:

上述公式中的第二个公式是朴素贝叶斯中最重要的核心部分，它是指每个属性在给定分类结果的条件下是相互独立的

经过条件独立性的假设的化简，原来的优化目标就可以写成:

经过这样的化简之后，我们需要学习的参数个数就变成了

朴素贝叶斯法实际上学习到生成数据的机制，所以属于生成模型。条件独立假设等于是说用于分类的特征在雷确定的条件下都是条件独立的，这一假设使得朴素贝叶斯变得简单，但有时会牺牲一定的分类准确率.

参数估计

经过上面的分析，我们现在需要从数据中学习的分布有以下两个:
极大似然估计

利用极大似然估计是比较容易从数据中学习上述两个概率分布的。

先验概率

其中

设

其中，

贝叶斯估计

但是，从上面的估计方法中，我们可以发现，其实极大似然估计还是有一些问题的，如果

上式中的

同样，先验概率的贝叶斯估计是:

具体实现

朴素贝叶斯算法的Python简单实现如下:
#coding:utf-8 """ Program: Naive Bayes Algorithm Description: Author: Flyaway - flyaway1217@gmail.com Date: 2014-01-13 20:30:29 Last modified: 2014-01-13 21:58:27 Python release: 3.2.3 """ from collections import Counter class NaiveBayes: def __init__(self,dataset,labels,lam = 1): self.dataset = dataset self.labels = labels self.instance_num = len(dataset) self.lam = lam #lambda self.count = {} self.prior = {} def getPrior(self,cla): ''' get the prior probability ''' member = self.prior[cla] + self.lam denominator = self.instance_num + len(self.prior) * self.lam return float(member/denominator) def train(self): self.prior={} m = Counter(self.labels).most_common() for item in m: self.prior[item[0]] = item[1] for i,vector in enumerate(self.dataset): cla = self.labels[i] if cla not in self.count: self.count[cla] = [{}] * len(vector) for j,feat in enumerate(vector): self.count[cla][j][feat] = self.count[cla][j].get(feat,0) + 1 def getPost(self,cla,index,feat): ''' get the post probability ''' member = self.count[cla][index].get(feat,0) + self.lam Sj = len(self.count[cla][index]) denominator = self.prior[cla] + self.lam * Sj return float(member / denominator) def predict(self,testdata): result = [] for vector in testdata: mP = 0.0 mCla = None for cla in self.count: p = self.getPrior(cla) for i,feat in enumerate(vector): p *= self.getPost(cla,i,feat) if p > mP: mP = p mCla = cla result.append(mCla) return result if __name__ == '__main__': import Read path = './Data/breast-cancer.data' trainset,trainlabels = Read.Open(path) index = int(len(trainset)/5) testset = trainset[:index] testlabels = trainlabels[:index] trainset = trainset[index:] trainlabels = trainlabels[index:] nb = NaiveBayes(trainset,trainlabels,1) nb.train() result = nb.predict(testset) print(result) print(testlabels) right = len([i for i in range(len(result)) if result[i] == testlabels[i]]) print('Precision = ' + str(right/len(result)))
总结

真是没想到要将朴素贝叶斯模型表述出来，竟然会有这么多的公式，但是请读者千万不要被这些公式给吓住了，其实朴素贝叶斯的方法是非常简单的，只有一点统计的基础，上述的这些公式都应该看得懂。

其实学习就是这么一回事，在你理解之前觉得是“高端大气上档次”，但是当你真正理解之后，你就会觉得也就是”just so so”，所以，还请静下心来，好好理解一下朴素贝叶斯模型.

参考资料
1. <统计机器学习>——李航
2. 【朴素贝叶斯】实战朴素贝叶斯_基本原理
3. Wiki:朴素贝叶斯分类器
转载：http://zhouyichu.com/machine-learning/Naive-Bayes.html
查看全文

相关阅读:
全局数据库名称/数据库实例/SID 的区别
 【转载】ORACLE 10G DBCA创建脚本实现手动创建数据库
 apue 20130328
apue 20130323
visual c++6.0
C语言
 apue 20130322
apue 20130324
apue 20130325
C语言里的字符串解析

原文地址：https://www.cnblogs.com/chenying99/p/4666138.html

朴素贝叶斯分类器

朴素贝叶斯

参数估计

极大似然估计

贝叶斯估计

具体实现

总结

参考资料