zoukankan      html  css  js  c++  java
  • 混淆矩阵,准确率,召回率,F-score,PR曲线,ROC曲线,AUC

    本文的部分内容摘自韩家炜《数据挖掘》

    ----------------------------------------------------------------------------------

    四个术语

    混淆矩阵(Confusion Matrix)

    评估度量

     还有一个术语:负正类率(false positive rate, FPR),也叫做打扰率计算公式为:FPR=FP/(FP+TN)=FP/N。负正类率计算的是分类器错认为正类的负实例占所有负实例的比例

    召回率(recall)的理解和记忆方法:假设丰田公司有一批汽车投放到了美国市场,后来发现其中有一部分有问题,现在要召回,召回率=召回的汽车中有问题的汽车数量 / 投放到美国市场的这批汽车中有问题的汽车总数,也就是说召回率的关注焦点在有问题的汽车数量,用召回来了的有问题的汽车数目除以总的有问题的汽车数目。

    分类准确率(Accuracy),不管是哪个类别,只要预测正确,其数量都放在分子上,而分母是全部数据数量,这说明正确率是对全部数据的判断。

    分类精度(precision)在分类中对应的是某个类别,分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。或者说,Accuracy是对分类器整体上的正确率的评价,而Precision是分类器预测为某一个类别的正确率的评价。

    ROC曲线和AUC

    ROC是受试者工作特征曲线 receiver operating characteristic curve ) 的简写,又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。ROC是反映召回率和打扰率连续变量的综合指标,是用构图法揭示召回率和打扰率的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列召回率和打扰率,再以召回率为纵坐标、打扰率为横坐标绘制成曲线。

    AUC是ROC曲线下面积(Area Under roc Curve)的简称,顾名思义,AUC的值就是处于ROC curve下方的那部分面积的大小。通常,AUC的值介于0到1.0之间,随机猜测的AUC值为0.5(例子可参考这篇博客)。

     分类模型输出的是某个类别的概率值。设定一个阈值,当概率值大于该阈值时,认为样本属于该类,当概率值小于该阈值时,认为样本不属于该类,然后可以算出该阈值下的(召回率,打扰率)。设定不同的阈值,可以得到不同的(召回率,打扰率)。

    PRC曲线

    precision recall curve, 简称PRC.

    ROC曲线和PRC曲线的比较

    本节内容摘自ROC曲线 vs Precision-Recall曲线 - hedgehog小子 - 博客园 (cnblogs.com)

  • 相关阅读:
    CSS选择器
    认识CSS样式
    1003 Max Sum(动态规划)
    Python_oldboy_自动化运维之路(八)
    Python_oldboy_自动化运维之路_全栈考试(七)
    Python_oldboy_自动化运维之路_函数,装饰器,模块,包(六)
    ibm x3550m4 开启cpu高性能模式
    Python_oldboy_自动化运维之路_全栈考试(五)
    Python_oldboy_自动化运维之路(四)
    Python_oldboy_自动化运维之路(三)
  • 原文地址:https://www.cnblogs.com/picassooo/p/13410666.html
Copyright © 2011-2022 走看看