一、AUC
AUC:随机挑选一个正样本和一个负样本,分类算法将这个正样本排在负样本前面的概率就是AUC。AUC越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。
计算方法:
1、绘制ROC曲线,ROC曲线下的面积就是AUC的值
2. 假设总共有(m+n)个样本。其中正样本m个,负样本n个,总共有m*n个样本对。计数,正样本预测为正样本的概率大于负样本预测为正样本的概率值记为1,累加计数,然后除以(m*n)就是AUC的值
二、ROC曲线
ROC曲线:接收者操作特征(Receiver Operating Characteristic),ROC曲线上每个点反映着对同一信号刺激的感受性。
介绍一下混淆矩阵。实际中的正例、负例,预测产生的正例、负例。因此两两组合,会产生四种情况
(1)若一个实例是正例,且预测为正例,即为真正例(True Postive TP)
(2)若一个实例是正例,且预测为负例,即为假反例(False Negative FN)
(3)若一个实例是负例,且预测为正例,即为假正例(False Postive FP)
(4)若一个实例是负例,且预测为负例,即为真负例(True Negative TN)
横轴:假正例率,假正例占真实反例的比重(FPR)
纵轴:真正例率,真正例占真实正例的比重(TPR)(和召回率的公式一模一样,反映的是分类器将所有正例找出来的能力)
如下面这幅图,图中实现为ROC曲线,线上每个点对应一个阈值
横轴:FPR越大,预测正例中真实的反例越多(希望它小)
纵轴:TPR越大,预测正例中真实的正例越多(希望它大)
理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45°对角线,效果越好
ROC的取值范围应该是0.5到1,如果小于0.5,那分类器的分类效果还不如瞎蒙,这个分类器就是失败的。