浅谈贝叶斯 - 走看看

zoukankan html css js c++ java

浅谈贝叶斯

概率里面经常听到贝叶斯这个词，其实这起源于一个公式：P(B|A) = P(AB)/P(A) = P(B)P(A|B)/P(A)，这个公式就是大家所知的贝叶斯公式。其中P(B|A)意思是当A事件发生时，B事件发生的概率。再说这个东西能干什么，其实就是用在模式识别中的分类器设计当中。

模式识别中认为所有的事物都有其一个明确的分类属性。那么我们如何自动的识别一个事物到底是属于何种分类呢？这里面就依仗了概率理论，其中最著名的就是利用上面公式进行分类的贝叶斯分类器。

例如有两个类别W1,W2，对于一个事物A，它到底属于W1还是W2呢？

贝叶斯的决策理论是这么认为的：如果P(W1|A)>P(W2|A)，那么就认为A属于W1，否则认为A属于W2，也就是说当A发生时，如果它属于W1的概率要比它属于W2的概率大，那么它就属于W1，否则属于W2，这个思想也很通俗易懂。又因为P(Wi|A)=P(AWi)/P(A) = P(Wi)P(A|Wi)/P(A)，所以对P(W1|A)与P(W2|A)的比较来说，P(A)都是一样的故可以去掉，即比较P(W1)P(A|W1)与P(W2)P(A|W2)的大小即可决定A的分类。那么这里面P(W1)=? P(W2)=? P(A|W1)=? P(A|W2)=? 这是个棘手的问题。

可以这么求得以上这些值：随机选取一定数量的事物构成集合S，之后查看S中的元素有多少是W1的，有多少是W2的。假设S中属于W1的事物有n1个，属于W2的事物有n2个，那么P(W1)=n1/|S| P(W2)= n2/|S|。那么P(A|W1)和P(A|W2)又怎么求呢？其实照葫芦画瓢:设S中属于W1的事物构成集合S1，属于W2的事物构成集合S2，只要我们分别数数两个集合中分别有多少元素具备和A一样的特征即可。假设S1中有m1个元素与A有相同特征，S2中有m2个元素与A有相同特征，那么P(A|W1)=m1/|S1|, P(A|W2)=m2/|S2|。这样我们为了判断A属于哪个分类的所有数据都齐了。我们只要把这些数值输入到计算机中，之后进行比较能够自动判断一个事物属于W1还是属于W2，这也可以叫做一个分类器。

但是我们回过头来看看这里有什么问题，计算P(W1) P(W2) P(A|W1) P(A|W2) 时我们是随机的选取了一些事物来进行计算的，由于我们不可能把所有的事物都拿过来，所以这种计算方式其实是有些误差的，我们只不过是以点盖面，认为抽样得到的集合和实际中事物的分布是一样的。当随机选取的集合越大越全面时，我们就会对A判断的越准确。其实如上的分类器也叫做最小错误率贝叶斯分类器，这是因为这么做总会使错误分类的概率达到最小，本文只想浅显说明贝叶斯的用处，所以这其中证明就略去了。此外还有诸如像最小损失的贝叶斯分类器等等，大家有兴趣可以自行研究。

分类本来就不是一个容易的事，依仗概率理论分类只是一个可行的方法，任何方法都难免会产生分类错误，并且有些事物并没有明确的分类标准，这些要提醒大家。

查看全文

相关阅读:
HTB-靶机-Charon
第一篇Active Directory疑难解答概述(1)
Outlook Web App 客户端超时设置
 【Troubleshooting Case】Exchange Server 组件状态应用排错？
【Troubleshooting Case】Unable to delete Exchange database？
Exchange Server 2007的即将生命周期，您的计划是？
"the hypervisor is not running" 故障
 Exchange 2016 体系结构
 USB PE
10 months then free? 10个月，然后自由

原文地址：https://www.cnblogs.com/haolujun/p/2830045.html