zoukankan      html  css  js  c++  java
  • 召回率、AUC、ROC模型评估指标精要

    混淆矩阵
    精准率/查准率,presicion 预测为正的样本中实际为正的概率
    召回率/查全率,recall 实际为正的样本中被预测为正的概率 TPR
    F1分数,同时考虑查准率和查全率,二者达到平衡,=2*查准率*查全率/(查准率+查全率)
    真正率 = 灵敏度 sensitivity 召回率 TP/TP+FN ,只关注正样本中有多少被准确预测
    假正率 = 1- 特异度 = FP/(FP+TN),有多少负样本被错误预测
     
    在正负样本足够的情况下,可以用ROC曲线、AUC、KS评价模型区分能力和排序能力,在确定阈值后,可以根据精准率、召回率、F1评价模型效果
    KS反映模型的最优区分效果,定义为好坏的最优阈值。
     
     
     
    AUC是评估模型排序能力的指标,logloss是评估准确度的指标,用来排序的依据是概率值
    auc值是一个概率值,意味着正样本排在负样本前面的概率
     
    roc,auc,ks评估模型,这几个指标对于比例失衡的数据 是相对比较客观的评估指标。
    • roc 曲线
    横坐标是假正率,纵坐标是真正率.roc曲线尽可能的靠近左上边(0,1)的位置,效果越好
    (0,0):真正率和假正率都是0,所有样本全部预测为负样本
    (1,1):真正率和假正率都是1,所有样本全部预测为正样本
    (0,1):真正率为1,假正率为0,正样本全部预测正确,负样本全部预测正确最完美的
    情况
    (1,0):真正率为0,假正率为1,正样本全部预测错误,负样本全部预测正确
    confusion matrix
    roc_curve
    • AUC曲线
    ROC曲线下的面积,常介于0.5和1之间(极端情况下低于0.5),可以直观的评价分类器的好
    坏,值越大越好。
    AUC值是一个概率值,当你随机挑选一个坏样本以及好样本,当前的分类算法根据计算得
    到的概率值将这个
    坏样本排在好样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将坏样本
    排在好样本前面,从而能够更好地分类。
    AUC的常用阈值 >0.7;有很强的区分度 0.6~0.7;有一定的区分度 0.5~0.6,有较弱的区分度;
    低于0.5,区分度弱于随机猜测
    • KS曲线
    ks值大于0.3说明模型的区分里比较好,ks值大于0.2模型可用,但是区分力较差;ks值小 于0.2大于0,模型的区分力差不可用; 如果ks值为负数,说明评分与好坏程度相悖,模型出现错误。ks指标的缺点是:只能表示 区分度最好的分数的区分度,不能衡量其他分数。
     
    天才是百分之一的灵感,加百分之九十九的汗水,但那百分之一的灵感往往比百分之九十九的汗水来的重要
  • 相关阅读:
    网易前端规范
    为什么很多网页里不直接用script标签引入JS文件,而是通过函数新建script,然后添加属性,再来引入呢?
    jQuery报错:Uncaught ReferenceError: $ is not defined
    PHP获得网页源码
    JAVA获取网页源码
    ctci(1)
    Hanoi
    计算多选框打勾的数目
    ThreadLocalClient小应用
    ajax动态刷新下拉框
  • 原文地址:https://www.cnblogs.com/Christbao/p/12022215.html
Copyright © 2011-2022 走看看