1.基本公式
其中P(Y),P(Y|X)叫作Y的先验概率,后验概率;P(X)和P(X|Y)叫作X的先验概率,后验概率;P(Y,X)叫作联合概率。
2.公式如何来的?
基于一个假设:特征条件之间相互独立
由联合概率分布P(Y,X)=P(X)P(Y|X)=P(Y)P(X|Y)即可推出
3.如何理解朴素贝叶斯的"朴素"?
朴素:对于同一个句子,交换其中词语的顺序,所得到的概率仍一样;(这种情况也视为bag of words)
4.处理重复词的三种方式?
- 多项式模型:重复的词语我们视为出现多次;
- 伯努利模型:重复的词语只视为出现一次;
- 混合模型:在计算句子概率时,不考虑重复词出现的次数,但是在统计词语的概率时,却考虑重复词语的出现次数;
5.去掉停用词与选择关键词
6.平滑技术
7.常用的tricks
- 取对数
- 转换为权重
- 选取topk的关键词
- 分割样本
- 位置权重
- 蜜罐
8.处理多分类问题