Minimizing the Classification Error Probability
我们接下来将要证明,Bayes分类器是使得错分概率最小化的一个最佳选择,假设R1是w1这一类的样本特征所在的区域,
R2是w2这一类的样本特征所在的区域,那么,如果一个样本特征原来是属于w2却落在区域R1,
即x∈R1,或者一个样本特征原来是属于w1却落在区域R2,
即x∈R2,那么这就会产生一个决策错误,即:
Pe=P(x∈R2,w1)+P(x∈R1,w2)
其中,P(⋅,⋅)表示联合概率,利用前面介绍的Bayes准则,我们可以得到:
Pe=P(x∈R2|w1)P(w1)+P(x∈R1|w2)P(w2)=P(w1)∫R2p(x|w1)dx+P(w2)∫R1p(x|w2)dx
利用Bayes法则,可以得到:
Pe=∫R2P(w1|x)p(x)dx+∫R1P(w2|x)p(x)dx
很容易可以看到,如果区域R1,R2的划分满足如下:
R1:P(w1|x)>P(w2|x)R2:P(w2|x)>P(w1|x)
那么,
Pe就能取得最小值,事实上,区域
R1,R2合起来可以覆盖样本特征的整个空间,
利用概率密度函数的定义,我们有
∫R1P(w1|x)p(x)dx+∫R2P(w1|x)p(x)dx=P(w1)
综上,我们可以得到:
Pe=P(w1)−∫R1(P(w1|x)−P(w2|x))p(x)dx
这个表达式意味着,如果区域R1满足P(w1|x)>P(w2|x),那么Pe就会取得最小值,这也意味着区域R2
满足P(w2|x)>P(w1|x),因为这两个区域覆盖了整个空间,并且是互补的。
到目前为止,我们讨论的都是两类的情况,但是这个结论可以很直接地推广到多类的情况,对于多分类的情况,如果:
P(wi|x)>P(wj|x)∀j≠i
那么,说明该样本特征属于w1.
Minimizing the Average Risk
一般来说,错分概率不一定是最好的衡量指标,因为它对于每一类分错的概率赋予相同的权重,但在实际应用中,每一类分错的后果是不一样的,
有些分错的后果可能比其它类的后果严重,比如把恶性肿瘤判断成良性的比把良性的判断成恶性的后果要严重的多,
因此,可以对于每一类分错的概率赋予一个惩罚项用来权衡. 这里,假设w1表示恶性肿瘤这一类,w2表示良性肿瘤这一类,进一步假设
R1和R2分别表示w1,w2的样本特征所在的区域。那么引入惩罚项之后,错分的概率Pe可以表示为:
r=λ12P(w1)∫R2p(x|w1)dx+λ21P(w2)∫R1p(x|w2)dx
上面的表达式说明了每一类的错分概率通过一个权重表示其对整体的贡献,在上述的假设情况下,权值λ12,λ21的合理设定应该
满足λ12>λ21,因为把w1(恶性肿瘤)错分成w2(良性肿瘤)的后果要更严重.
现在我们来考虑一个M类的问题,假设Rj,j=1,2,...M, 表示每一类wj的样本特征所在的区域, 现在设想有一个属于wk样本特征x落在区域
Ri,i≠k. 那么该样本会被判断属于wi, 这样就产生一个决策错误, 一个惩罚项λki,称为loss, 与该决策错误捆绑在一起, 矩阵
L, 其位置(k,i)上有对应的惩罚项, 称为 loss 矩阵, 显然, 矩阵对角线上的值(k,k)对应的都是决策正确的权值, 实际应用中一般都设为0, 这里为了不失一般性, 我们也把对角线上的值考虑进去, 那么某一类wk的决策风险可以表示为:
rk=∑i=1Mλki∫Rip(x|wk)dx
可以看到, 上式中的积分项表示属于wk的某一样本特征被判断为属于wi的概率, 这个概率乘以λki作为加权, 我们的目标是将整个
样本特征的空间进行划分, 并且使得所有类的决策风险的平均值最小, 即:
r=∑k=1MrkP(wk)=∑i=1M∫Ri(∑k=1Mλkip(x|wk)P(wk))dx
要最小, 如果上式中的每一个积分项都能取得最小值, 那么平均值就能最小, 相当于区域划分将满足如下的不等式:
x∈Riifli≡∑k=1Mλkip(x|wk)P(wk)<lj≡∑k=1Mλkjp(x|wk)P(wk)∀j≠i
对于两类的情况, 我们可以得到:
l1=λ11p(x|w1)P(w1)+λ21p(x|w2)P(w2)l2=λ12p(x|w1)P(w1)+λ22p(x|w2)P(w2)
如果l1<l2, 那么x属于w1, 即:
(λ21−λ22)p(x|w2)P(w2)<(λ12−λ11)p(x|w1)P(w1)
一般情况下,
λij>λii, 因为判断正确的惩罚项应该比判断错误的惩罚项要小, 基于这个假设, 那么decision rule可以写成:
x∈w1(w2)ifl12≡p(x|w1)p(x|w2)>(<)P(w2)P(w1)λ21−λ22λ12−λ11
比率l12叫做似然比率, 如果我们假设λ11,λ22都为0的话, 并且假定λ21>λ12, 那么如果满足下述不等式:
p(x|w2)>p(x|w1)λ12λ21
则该样本属于
w2, 这里假设两类的先验概率是相等的, 即:
P(w1)=P(w2)=1/2. 上面的表达式里,
p(x|w1)乘了一个小于1的因子, 相当于区域
R2增大了而区域
R1则相应地缩小了。
>
Sergios Theodoridis, Konstantinos Koutroumbas, “Pattern Recognition”, 4th edition, 2008, Elsevier.
Christopher M. Bishop, “Pattern Recognition and Machine Learning”, Springer, 2006.