zoukankan      html  css  js  c++  java
  • ROC曲线与AUC面积、Gini系数、KS值 之间关系

     特别注意区别:

    (1)P-R曲线是分别将查准率Precision(精确率)作为纵坐标,查全率Recall(召回率)作为横坐标作的图。

    (2)ROC曲线、AUC面积、Gini系数、KS值 都是基于真阳率TPR(又叫查全率、召回率、捕获率、命中率)假阳率FPR(误诊率)两个重要的指标得来的。其中AUC面积、Gini系数是直接在ROC曲线基础上进一步得到的。

    一、ROC曲线

    定义:

    是指受试者工作特征曲线/接收器操作特性曲线(receiver operating characteristic curve),是反应敏感性和特异性连续变量的综合指标,利用构图法揭示敏感性和 特异性的相互关系,它通过将连续变量设定出多个不同的临界值(阈值),从而计算出一系列敏感性和特异性,再以敏感性(命中率)为纵坐标,特异性(误诊率)为横坐标绘制成曲线,曲线下的面积(AUC)越大,诊断准确性越高。最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

    性质:

    (1)在同一个ROC曲线中,靠近坐标图最左上角的点阈值取值为命中率最高,误诊率最低的临界值。

    (2)对于多个ROC曲线来说,和P-R曲线图形相似,如果一条ROC曲线完全包裹另一条,则外面曲线对应模型更优

    (3)当两条ROC曲线发生交叉,谁的性能更优就难以判定了,此时要根据两条ROC曲线下的面积大小比较判断,即AUC面积大者相对更优。

    下面归纳一下怎么得来的。对于一个二分问题来说,会出现以下四种情况(混淆矩阵):

        预测    
         1  0  合计
    实际    1  True Positive(TP)真阳  False Negative(FN)假阴  Actual Positive(TP+FN)
     0  False Positive(FP)假阳  True Negative(TN)真阴  Actual Negative(FP+TN)
       合计  Predicted Positive(TP+FP)  Predicted Negative(FN+TN)  TP+FP+FN+TN

     先把基本定义讲清楚:

    TP(True Positive): 预测为1,真实为1,正例辨出——>真阳性

    TN(True Negative):预测为0,真实为0,负例辨出——>真阴性

    FN(False Negative): 预测为0,真实为1,正例遗漏——>假阴性

    FP(False Positive): 预测为1,真实为0,负例遗漏——>假阳性

    再看重要指标:

    准确率 =(TP+TN) /P+N =被正确分类样本数/总样本数

    查准率 /响应率 Precision = TP /(TP+FP)

    查全率 /召回率/捕获率/命中率 Recall =TP /(TP+FN) ——>真阳率 TPR

    误诊率 = FP /(FP+TN)——>假阳率 FPR

     

     

     以上值得注意的是:所有预测为1阳性的样本 =召回+误诊

    那么,以命中率(TPR)作为纵坐标,误诊率(FPR)作为横坐标,得到ROC曲线:

                

    二、AUC面积(最重要)

     AUC被定义为ROC曲线下与坐标轴围成的面积。

    由于ROC曲线的定义,AUC的值不会大于1。

    同时,ROC曲线一般在y=x曲线上方,所以AUC的取值范围一般在(0.5~1)。

    意义:一般AUC越接近于1,表示模型整体效果越好。

     

     

    三、KS值

     KS(Kolmogorov-Smirnov)值定义为TPR与FPR的差的最大值。

    KS值 =max(TPR−FPR)

    应用:

    一般,希望模型有较大的KS值,意味着模型有较强的区分能力。但是也不是越大越好,如果KS值超过0.75,往往表示模型有异常。

    KS值对应的模型预测概率即最优阈值,选择此预测概率值作为0、1分类的分界线,可使模型取得最优分类效果。

    意义:

    (1)KS值<0.2 ,一般认为模型区分能力较弱;

    (2)KS值在[0.2 ,0.3]之间模型有一定区分能力;商业实践中能在这个区间就挺不错了。

    (3)KS值在[0.3 ,0.5]之间,模型具有较强的区分能力。

     

    四、Gini系数

    Gini系数指ROC曲线与y=x(红线)围成的面积和中线之上的面积的(0.5)比例。AUC和Gini系数的换算关系为:

    Gini系数 =2*AUC -1

    【参考】

    【1】如何向门外汉讲解ks值(风控模型术语)?

    【2】ROC曲线、AUC、Gini系数和KS值

    聪明 皮实 乐观 自省
  • 相关阅读:
    Linux集群之间配置NTP时间同步ntp
    CentOS7安装配置MariaDB(mysql)数据主从同步
    常用邮件SMTP POP3服务器地址大全
    为应用创建多个独立python运行环境
    Linux中安装配置KVM虚拟化
    Linux系统管理和调优(内存、CPU、磁盘IO、网络)
    CentOS8Linux中配置网易云网络yum源安装软件
    CentOS7linux通过http配置共享自动创建yum源的shell脚本
    BigDecimal类型比较数字大小
    Double值保留两位小数的四种方法
  • 原文地址:https://www.cnblogs.com/zwt20120701/p/15557602.html
Copyright © 2011-2022 走看看