网上很多人把什么文本分类说的神乎其技,搞的我非常火大
花了一个通宵阅读了N个文本分类的开源代码,总结了一下其实简单的难以置信:
先验概率计算 = 某分类文档总数 / 所有分类文档总数
分类条件概率计算 = 某分类包含关键词的训练文档总数 + 1 / (某分类的训练文档总数 + 分类总数)
文本某分类条件概率 = 所有词汇的分类条件概率 的乘积 * 先验概率
最终分类 就是根据上面的结果排序 概率最大的就表示属于某分类的可能性越大
明明三句话就能说清楚的事,专家们长篇大论,为何?
交流QQ群:204725117