- [x] 准确度;PR (Precision Recall);
- [x] F测量;
- [ ] MCC;
- [ ] BM;
- [ ] MK;
- [ ] Gini系数;
- [x] ROC;
- [ ] Z score;
- [x] AUC ;
- [ ] Cost Curve;
- [ ] BLEU;
- [ ] Matthews correlation coefficient;
- [ ] METEOR;
- [ ] Brier score;
- [ ] NIST (metric);
- [ ] ROUGE (metric);
- [ ] Sørensen–Dice coefficient;
- [ ] Uncertainty coefficient, aka Proficiency;
- [ ] Word error rate (WER);
图0.1 wiki上的图
- true condition:列表示真实类别;predicted condition:行表示预测的类别;
- 真实正类=true positive+false negative;真实负类=false positive+true negative;
- 预测的正类=true positive+false positive; 预测的负类=false negative+true negative。
1. 不同指标的含义
1.1 accuracy&Precision Recall
- accuracy:(图0.1中ACC)即最常用的准确度,表示(frac{所有预测对了的样本个数}{总的样本个数});
- Precision:(图0.1中PPV),精确率,表示预测的正类中预测对的样本个数比例(frac{true\, positive}{预测的正类});
- Recall:(图0.1中TPR),召回率,表示真实正类中预测对的样本个数比例(frac{true\, positive}{真实正类}).
1.2 F measure&&G measure
1.2.1 F measure
传统的F measure(balanced F score,(F_1) score)就是关于precision和recall的Harmonic均值(是数学上一种均值算法),其公式如下:
- 当F score为0的时候最差:即precision和recall中某个值或者都接近0,则该模型越差;
- 当F score为1的时候最好:即precision和recall同时越接近1则该模型越好。
ps:F1 score同样也被称为Sørensen–Dice coefficient或者说叫Dice similarity coefficient (DSC).
其中(F_2),(F_{0.5})是相对(F_1)两个常用的F measure:
- 当(eta=2),则表示recall的影响要大于precision;
- 当(eta=0.5),则表示precision的影响要大于recall.
如果以图0.1中的type I error和type II error来表示F measure,则如下面式子:
1.2.2 G measure
相对于F measure 是一种Harmonic均值,G measure是一种geometric mean,同时也被称为 Fowlkes–Mallows index
1.3 PR Curve
1.4 Cost Curve
1.5 ROC
AUC:Aera under curve,即表示曲线下面积的意思
2. 不同指标之间的关系
2.1. PRC和ROC之间的关系
当不同类别中样本的个数差别很大的时候,ROC曲线是无法正确的描述算法性能的,假如2分类中负类特别多,那么当图0.1中FP变化很大时,在ROC上横坐标表示的FPR上表现的就不那么明显;而precision是通过FP与TP之间的对比而不是FP和TN之间的对比,从而如果FP变化很大的时候,precision就会变得很敏感了,从而能够抓取到当负类个数远大于正类时候算法性能的影响了。Jesse Davis以及前人就通过PRC来代替ROC进行算法性能描述。而这两种曲线之间一个很重要的区别就在于视觉上的体现,如图2.1.1所示。
图2.1.1 PR与ROC的曲线图
2.2 ROC与CC(cost curves)之间的关系
2.3 AUC的探讨
