ROC曲线

zoukankan html css js c++ java

ROC曲线
1.混淆矩阵（confusion matrix）

    针对预测值和真实值之间的关系，我们可以将样本分为四个部分，分别是：

    真正例（True Positive，TP）：预测值和真实值都为1

    假正例（False Positive，FP）：预测值为1，真实值为0

    真负例（True Negative，TN）:预测值与真实值都为0

    假负例（False Negative，FN）：预测值为0，真实值为1

    我们将这四种值用矩阵表示(图片引自《machine learning：A Probabilistic Perspective》)：



    上面的矩阵就是混淆矩阵。

   2.ROC曲线

     通过混淆矩阵，我们可以得到真正例率（True Positive Rate , TPR）：



    我们还可以得到假正例率(False Positive Rate , FPR):



    可以看到，TPR也就是我们所说的召回率，那么只要给定一个决策边界阈值，我们可以得到一个对应的TPR和FPR值，然而，我们不从这个思路来简单的得到TPR和FPR，而是反过来得到对应的，我们检测大量的阈值，从而可以得到一个TPR-FPR的相关图，如下图所示（图片引自《machine learning：A Probabilistic Perspective》）：

    图中的红色曲线和蓝色曲线分别表示了两个不同的分类器的TPR-FPR曲线，曲线上的任意一点都对应了一个值。该曲线就是ROC曲线（receiver operating characteristic curve）。该曲线具有以下特征：
- 一定经过（0,0）点，此时，没有预测为P的值，TP和FP都为0
- 一定经过（1,1）点，此时，全都预测为P
- 最完美的分类器（完全区分正负样例）：（0,1）点，即没有FP，全是TP
- 曲线越是“凸”向左上角，说明分类器效果越好
- 随机预测会得到（0,0）和（1,1）的直线上的一个点
- 曲线上离（0,1）越近的点分类效果越好，对应着越合理的
从图中可以看出，红色曲线所代表的分类器效果好于蓝色曲线所表示的分类器。

3.利用ROC的其他评估标准
- AUC(area under thecurve)，也就是ROC曲线的下夹面积，越大说明分类器越好，最大值是1，图中的蓝色条纹区域面积就是蓝色曲线对应的 AUC
- EER（equal error rate），也就是FPR=FNR的值，由于FNR=1-TPR，可以画一条从（0,1）到（1,0）的直线，找到交点，图中的A、B两点。
参考：

1.《machine learning：A Probabilistic Perspective》

2.wiki
查看全文

相关阅读:
计算机网络基础
 ansible
CDH集群日常
 漏洞挖掘学习
 JDWP
开源安全项目调研
 SMB漏洞汇总
 Windows账户LM/NTLM
SMB知识汇总
 Memcache未授权漏洞

原文地址：https://www.cnblogs.com/cdeng/p/3471527.html

1.混淆矩阵（confusion matrix）

2.ROC曲线

3.利用ROC的其他评估标准