zoukankan      html  css  js  c++  java
  • 模型区分度衡量指标-KS值

    1.KS值--学习器将正例和反例分开的能力,确定最好的“截断点”

    KS曲线和ROC曲线都用到了TPR,FPR。KS曲线是把TPR和FPR都作为纵坐标,而样本数作为横坐标。但是AUC只评价了模型的整体训练效果,并没有指出如何划分类别让预估的效果达到最好。
    不同之处在于,ks取的是TPR和FPR差值的最大值。
    伪阳性率(FPR) :判定为正例却不是真正例的比率
    真阳性率(TPR) :判定为正例也是真正例的比率
    伪阴性率(FNR) :判定为负例却不是真负例的比率
    真阴性率(TNR) :判定为负例也是真负例的比率

    2.画图注意

    令横轴为阈值,纵轴为TPR和TPR,值域均为[0, 1]。可以这样直观理解,随着横坐标从0到1变化,TPR越快提升,模型效果越好;反之,FPR越快提升,模型效果就越差。 ks值,正是图中的最大差值,此时的横轴取值,便是最佳阈值。 

    3.作图步骤

    1. 根据学习器的预测结果(注意,是正例的概率值,非0/1变量)对样本进行排序(从大到小)-----这就是截断点依次选取的顺序
    2. 按顺序选取截断点,并计算TPR和FPR ---也可以只选取n个截断点,分别在1/n,2/n,3/n等位置
    3. 横轴为样本的占比百分比(最大100%),纵轴分别为TPR和FPR,可以得到KS曲线
    4. TPR和FPR曲线分隔最开的位置就是最好的”截断点“,最大间隔距离就是KS值,通常>0.2即可认为模型有比较好偶的预测准确性

  • 相关阅读:
    redis中文API
    基于redis的分布式锁
    redis安装使用配置
    windows常用命令
    curl命令详解
    linux远程连接
    memcache在大型网站的应用策略
    缓存使用的一些注意事项
    记录memcache分布式策略及算法
    U盘安装Centos7.0图解
  • 原文地址:https://www.cnblogs.com/demo-deng/p/11582674.html
Copyright © 2011-2022 走看看