zoukankan      html  css  js  c++  java
  • 衡量分类准确度各参数含义

    True Positive (真正, TP)被模型预测为正的正样本;

    True Negative(真负 , TN)被模型预测为负的负样本 ;

    False Positive (假正, FP)被模型预测为正的负样本;

    False Negative(假负 , FN)被模型预测为负的正样本;

    True Positive Rate(真正率 , TPR)或灵敏度(sensitivity :

       TPR = TP /(TP + FN) 
       正样本预测结果数 / 正样本实际数

    True Negative Rate(真负率 , TNR)或特指度(specificity :

       TNR = TN /(TN + FP) 
       负样本预测结果数 / 负样本实际数 

    False Positive Rate (假正率, FPR :

       FPR = FP /(FP + TN) 
       被预测为正的负样本结果数 /负样本实际数 

    False Negative Rate(假负率 , FNR:

       FNR = FN /(TP + FN) 
       被预测为负的正样本结果数 / 正样本实际数

    召回率和精度:
    其中

    - 系统检索到的相关文档(A)

    - 系统检索到的不相关文档(B)

    - 相关但是系统没有检索到的文档(C)

    - 不相关但是被系统检索到的文档(D)

    直观的说,一个好的检索系统检索到的相关文档越多越好,不相关文档越少越好.

    召回率和精度是衡量信息检索系统性能最重要的参数.

    召回率R(查全率)用检索到相关文档数作为分子,所有相关文档总数作为分母,即 R=A/(A+C)

    精度P(查准率) 用检索到相关文档数作为分子,所有检索到的文档总数作为分母.即  P=A/(A+B).

    F-measure:计算公式是F=2*PR/(P+R),其推导也很简单。定义:

    2/F=1/P+1/R,F定义为P和R的调和平均数

    MCC Matthews 相关系数

    MCC=(TP*TN-FP*FN)/[(TP+FP)*(TP+FN)*(TN+FP)*(TN+FN)]^0.5,

    同时考虑了 FP和 FN,并适用于不平衡问题(两个类的
    比例相差很大)。取值在[-1,1]之间,1 代表完美的预测,0 代表与随机分类器效果
    一样,-1 代表预测结果与实际结果完全不一致

    Roc area

    Roc曲线评价统计量计算。Roc曲线在[0,1]之间,Roc曲线下的面积值在1.0和0.5之间,在auc>0.5的情况下,auc越接近于1,说明诊断效果越好,auc在0.5~0.7时有较低准确性,auc在0.7~0.9有一定准确性,理想情况为1. Roc 曲线越靠近左上方, 说明分类器的分
    类效果越好。

    优点:该方法简单、直观,通过图示可观察分析方法的临床准确性,并可用肉眼作出判断。ROC曲线将灵敏度与特异性以图示方法结合在一起,可准确反映某分析方法特异性和敏感性的关系,是试验准确性的综合代表。它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

    Prc area:

    查准率 /查全率曲线下面积
    显示 PRC 曲线下面积,[0,1]范围的小数。

    平均绝对误差,参数估计值与参数真值之差平方的期望值,记为MSE

    对同一物理量进行多次测量时,各次测量值及其绝对误差不会相同,我们将各次测量的绝对误差取绝对值后再求平均值,并称其为平均绝对误差,即:△=(│△1│+│△2│+……+│△n│)/n (△为平均绝对误差;△1、△2、……△n为各次测量的绝对误差)。

    均方根误差RMSE

    均方根误差亦称标准误差,其定义为 ,i=1,2,3,…n。在有限测量次数中,均方根误差常用下式表示:sqrt([∑di^2/n])=Re,式中:n为测量次数;di为一组测量值与真值的偏差

    相对绝对误差RAE

    δ=△/Lx100%

    式中:δ—实际相对误差,一般用百分数给出

    △—绝对误差

    L—真值

    一个近似数与它准确数的差的绝对值叫这个近似数的绝对误差。用a表示近似数,A表示它的准确数,那么近似数a的相对误差就是|a-A|/A。

    混淆矩阵:能够很清楚的看到每个地物正确分类的个数以及被错分的类别和个数。但是,混淆矩阵并不能一眼就看出类别分类精度的好坏,为此从混淆矩阵衍生出来各种分类精度指标,其中总体分类精度(OA)和卡帕系数(Kappa)应用最为广泛。

    总体分类精度(OA):指被正确分类的类别像元数与总的类别个数的比值;OA值虽然能很好的表征分类精度,但是对类别像元个数极度不平衡的多类地物来说,其值收到像元数据较多类别的影响较大,不能很好的表征每个类别地物。

    Kappa系数(Kappa:Kappa系数是一种比例,代表着分类与完全随机的分类产生错误减少的比例,其计算过程可用如下公式表示:

    kappa计算结果为-1~1,但通常kappa是落在 0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。

    预测的类

    A

    B

    C

    合计

    实际的类

    A

    20

    0

    2

    22

    B

    1

    15

    3

    19

    C

    0

    2

    10

    12

     

    合计

    21

    17

    15

    53

    Pr(e)=(21/53)*(22/53)+(17/53)*(19/53)+(15/53)*(12/53)

    Pr(a)=(20+15+3)/53

    Kappa=(Pr(a)-Pr(e))/(1-Pr(e))

     

  • 相关阅读:
    纪念时至今日才学会的命令行
    面向对象程序设计寒假作业2
    面向对象程序设计寒假作业1
    POJ 2104 K-th Number
    HihoCoder 1325 平衡树·Treap
    HihoCoder 1079 离散化
    POJ 2135 Farm Tour
    Luogu P1231 教辅的组成
    洛谷 P3410 拍照
    洛谷 P3370 【模板】字符串哈希
  • 原文地址:https://www.cnblogs.com/dudumiaomiao/p/5912881.html
Copyright © 2011-2022 走看看