特别注意区别:
(1)P-R曲线是分别将查准率Precision(精确率)作为纵坐标,查全率Recall(召回率)作为横坐标作的图。
(2)ROC曲线、AUC面积、Gini系数、KS值 都是基于真阳率TPR(又叫查全率、召回率、捕获率、命中率)和假阳率FPR(误诊率)两个重要的指标得来的。其中AUC面积、Gini系数是直接在ROC曲线基础上进一步得到的。
一、ROC曲线
定义:
是指受试者工作特征曲线/接收器操作特性曲线(receiver operating characteristic curve),是反应敏感性和特异性连续变量的综合指标,利用构图法揭示敏感性和 特异性的相互关系,它通过将连续变量设定出多个不同的临界值(阈值),从而计算出一系列敏感性和特异性,再以敏感性(命中率)为纵坐标,特异性(误诊率)为横坐标绘制成曲线,曲线下的面积(AUC)越大,诊断准确性越高。最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。
性质:
(1)在同一个ROC曲线中,靠近坐标图最左上角的点阈值取值为命中率最高,误诊率最低的临界值。
(2)对于多个ROC曲线来说,和P-R曲线图形相似,如果一条ROC曲线完全包裹另一条,则外面曲线对应模型更优。
(3)当两条ROC曲线发生交叉,谁的性能更优就难以判定了,此时要根据两条ROC曲线下的面积大小比较判断,即AUC面积大者相对更优。
下面归纳一下怎么得来的。对于一个二分问题来说,会出现以下四种情况(混淆矩阵):
预测 | ||||
1 | 0 | 合计 | ||
实际 | 1 | True Positive(TP)真阳 | False Negative(FN)假阴 | Actual Positive(TP+FN) |
0 | False Positive(FP)假阳 | True Negative(TN)真阴 | Actual Negative(FP+TN) | |
合计 | Predicted Positive(TP+FP) | Predicted Negative(FN+TN) | TP+FP+FN+TN |
先把基本定义讲清楚:
TP(True Positive): 预测为1,真实为1,正例辨出——>真阳性
TN(True Negative):预测为0,真实为0,负例辨出——>真阴性
FN(False Negative): 预测为0,真实为1,正例遗漏——>假阴性
FP(False Positive): 预测为1,真实为0,负例遗漏——>假阳性
再看重要指标:
准确率 =(TP+TN) /P+N =被正确分类样本数/总样本数
查准率 /响应率 Precision = TP /(TP+FP)
查全率 /召回率/捕获率/命中率 Recall =TP /(TP+FN) ——>真阳率 TPR
误诊率 = FP /(FP+TN)——>假阳率 FPR
以上值得注意的是:所有预测为1阳性的样本 =召回+误诊
那么,以命中率(TPR)作为纵坐标,误诊率(FPR)作为横坐标,得到ROC曲线:
二、AUC面积(最重要)
AUC被定义为ROC曲线下与坐标轴围成的面积。
由于ROC曲线的定义,AUC的值不会大于1。
同时,ROC曲线一般在y=x曲线上方,所以AUC的取值范围一般在(0.5~1)。
意义:一般AUC越接近于1,表示模型整体效果越好。
三、KS值
KS(Kolmogorov-Smirnov)值定义为TPR与FPR的差的最大值。
KS值 =max(TPR−FPR)
应用:
一般,希望模型有较大的KS值,意味着模型有较强的区分能力。但是也不是越大越好,如果KS值超过0.75,往往表示模型有异常。
KS值对应的模型预测概率即最优阈值,选择此预测概率值作为0、1分类的分界线,可使模型取得最优分类效果。
意义:
(1)KS值<0.2 ,一般认为模型区分能力较弱;
(2)KS值在[0.2 ,0.3]之间模型有一定区分能力;商业实践中能在这个区间就挺不错了。
(3)KS值在[0.3 ,0.5]之间,模型具有较强的区分能力。
四、Gini系数
Gini系数指ROC曲线与y=x(红线)围成的面积和中线之上的面积的(0.5)比例。AUC和Gini系数的换算关系为:
Gini系数 =2*AUC -1
【参考】