贝叶斯分类算法

zoukankan html css js c++ java

贝叶斯分类算法
分类实际上就是按照某种标准来给对象贴标签，然后再根据标签进行区分，基于概率统计的贝叶斯分类算法是最常见的分类算法，也是目前垃圾文本识别领域应用最广泛的算法。

使用贝叶斯分类算法进行二分类大致可分为这几个步骤：
1. 收集大量的垃圾内容和非垃圾内容语料，建立训练的垃圾语料集和正常内容的语料集。
2. 对语料文本进行分词，提取出独立的字符串，并且统计字符串在文本中出现的频次。
3. 每个训练语料集对应一个hash table，比如垃圾语料集放在hashtable_bad中，而非垃圾语料集放在hashtable_good中，而hashtable中存储通过分词提取出的字符串以及对应的词频。
4. 计算hashtable所有的字符串出现的概率，即P=字符串的词频/字符串的总数。
5. 综合hashtable_good与hashtable_bad，推测当一串文本中包含某个字符串时，该文本为垃圾内容的概率,对应的数学表达式如下： P（A|k_i） = P_bad（k_i） / [ P_good（ki） +P_bad（k_i） ]，其中事件A表示文本为垃圾内容，k₁,k₂ ……k_n 代表提取的关键词，而P（A|k_i）则表示在文本中出现关键词k_i时，该文本为垃圾内容的概率，P_bad（k_i）为t_i在hashtable_bad中的值，而P_good（k_i）为k_i在hashtable_good中的值。
6. 建立新的hashtable_probability存储字符串k_i到P（A|k_i）的映射。
行文至此，贝叶斯分类的训练学习过程就完成了，接下来就可以根据hashtable_probability来计算文本为垃圾内容的可能性了。假设用户提交的文本内容经过分词得到n个关键词k₁,k₂,k₃……k_n,hashtable_probability中对应的值为 P₁,P₂……P_n ,P(A|k₁,k₂,k₃……k_n) 表示在用户提交的文本中同时出现关键字k₁,k₂,k₃……k_n时，该段内容为垃圾文本的概率， P(A|k₁,k₂,k₃……k_n) =P₁*P₂*……P_n 。当P(A|k₁,k₂,k₃……k_n)超过预定阈值时，可以判断该内容为垃圾内容，通过调整阀值，可以控制反垃圾系统对于内容过滤的严苛程度。
查看全文

相关阅读:
lua学习笔记
 s2-029 Struts2 标签远程代码执行分析(含POC)
GoAccess日志分析工具使用文档
 error: command 'gcc' failed with exit status 1 的解决办法
 机器学习算法总结(八)——广义线性模型(线性回归，逻辑回归)
机器学习中常见的过拟合解决方法
 机器学习算法总结(七)——隐马尔科夫模型(前向后向算法、鲍姆-韦尔奇算法、维特比算法)
机器学习算法总结(六)——EM算法与高斯混合模型
 机器学习中常见的损失函数
 机器学习算法总结(五)——聚类算法（K-means，密度聚类，层次聚类）

原文地址：https://www.cnblogs.com/encode/p/5166243.html