需要知道的是在什么时候可以用朴素贝叶斯算法:需要保证特征条件独立。
主要过程是学习输入和输出的联合概率分布。
预测的时候,就可以根据输入获得后验概率对应的输出y。
先验概率:已知输出,求输入。后验概率相反。
简单来说朴素贝叶斯算法,就是在对样本进行学习之后,到了需要做决策的时候,给定x,给出最大概率的y。这个本质上就是一个典型的后验概率模型。不过在该模型的算法推到上,还用到了先验概率的计算。但注意:最终朴素贝叶斯就是一种后验概率模型求P(y|x)。
后验概率模型有一个好处,相当于期望风险最小化。这个很好理解,我所取得的y是所有可能性之中概率最大的。那么我的选择承担的错误的风险自然就减小了。
参数估计
到了参数选取的时候了。
估计流程:
1> 确定y的不同取值的概率
2> 计算y不同取值的时候 x|y 的概率。
3> 后验概率公式求解。
Laplace 平滑:
p(y) 和 p(x|y)在计算时候都应该进行Laplace平滑。因为朴素贝叶斯是独立同分布的。p(xj|y)某一项为0的时候。整个函数公式值全为0。这是极其有问题的。所以进行拉普拉斯平滑极为必要。
优点:
对小规模的数据表现很好,适合多分类任务,适合增量式训练。
缺点:
支持的特征数量相对较少。因为特征数量多了,就比较难保证所有特征是独立同分布的了。对输入数据特别敏感。如果输入数量小,那么很可能其中一个数据就能改变结果。