zoukankan      html  css  js  c++  java
  • 召回率、AUC、ROC模型评估指标精要

    混淆矩阵
    精准率/查准率,presicion 预测为正的样本中实际为正的概率
    召回率/查全率,recall 实际为正的样本中被预测为正的概率 TPR
    F1分数,同时考虑查准率和查全率,二者达到平衡,=2*查准率*查全率/(查准率+查全率)
    真正率 = 灵敏度 sensitivity 召回率 TP/TP+FN ,只关注正样本中有多少被准确预测
    假正率 = 1- 特异度 = FP/(FP+TN),有多少负样本被错误预测
     
    在正负样本足够的情况下,可以用ROC曲线、AUC、KS评价模型区分能力和排序能力,在确定阈值后,可以根据精准率、召回率、F1评价模型效果
    KS反映模型的最优区分效果,定义为好坏的最优阈值。
     
     
     
    AUC是评估模型排序能力的指标,logloss是评估准确度的指标,用来排序的依据是概率值
    auc值是一个概率值,意味着正样本排在负样本前面的概率
     
    roc,auc,ks评估模型,这几个指标对于比例失衡的数据 是相对比较客观的评估指标。
    • roc 曲线
    横坐标是假正率,纵坐标是真正率.roc曲线尽可能的靠近左上边(0,1)的位置,效果越好
    (0,0):真正率和假正率都是0,所有样本全部预测为负样本
    (1,1):真正率和假正率都是1,所有样本全部预测为正样本
    (0,1):真正率为1,假正率为0,正样本全部预测正确,负样本全部预测正确最完美的
    情况
    (1,0):真正率为0,假正率为1,正样本全部预测错误,负样本全部预测正确
    confusion matrix
    roc_curve
    • AUC曲线
    ROC曲线下的面积,常介于0.5和1之间(极端情况下低于0.5),可以直观的评价分类器的好
    坏,值越大越好。
    AUC值是一个概率值,当你随机挑选一个坏样本以及好样本,当前的分类算法根据计算得
    到的概率值将这个
    坏样本排在好样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将坏样本
    排在好样本前面,从而能够更好地分类。
    AUC的常用阈值 >0.7;有很强的区分度 0.6~0.7;有一定的区分度 0.5~0.6,有较弱的区分度;
    低于0.5,区分度弱于随机猜测
    • KS曲线
    ks值大于0.3说明模型的区分里比较好,ks值大于0.2模型可用,但是区分力较差;ks值小 于0.2大于0,模型的区分力差不可用; 如果ks值为负数,说明评分与好坏程度相悖,模型出现错误。ks指标的缺点是:只能表示 区分度最好的分数的区分度,不能衡量其他分数。
     
    天才是百分之一的灵感,加百分之九十九的汗水,但那百分之一的灵感往往比百分之九十九的汗水来的重要
  • 相关阅读:
    js继承《转》
    千分位分割正则
    所有事件失效
    658. Find K Closest Elements
    278. First Bad Version
    153. Find Minimum in Rotated Sorted Array
    11. Container With Most Water
    205. Isomorphic Strings
    75. Sort Colors
    695. Max Area of Island
  • 原文地址:https://www.cnblogs.com/Christbao/p/12022215.html
Copyright © 2011-2022 走看看