ROC曲线及AUC评价指标

zoukankan html css js c++ java

ROC曲线及AUC评价指标
很多时候，我们希望对一个二值分类器的性能进行评价，AUC正是这样一种用来度量分类模型好坏的一个标准。现实中样本在不同类别上的不均衡分布(class distribution imbalance problem)，使得accuracy这样的传统的度量标准不能恰当的反应分类器的性能。举个例子：测试样本中有A类样本90个，B 类样本10个。若某个分类器简单的将所有样本都划分成A类，那么在这个测试样本中，它的准确率仍为90%，这显示是不合理的。为了解决上述问题，人们从医疗分析领域引入了一种新的分类模型performance评判方法——ROC分析。在介绍ROC之前，首先讨论一下混淆矩阵（Confusion matrix）。

混淆矩阵是监督学习中的一种可视化工具，主要用于比较分类结果和实例的真实信息（outcom vs. ground truth）。矩阵中的每一行代表实例的预测类别，每一列代表实例的真实类别。在混淆矩阵中，每一个实例可以划分为四种类型之一，True PositiveFalse PositiveFalse NegativeTrue Negetive（TPFPFNTN），如图1所示。其中，Positive代表预测实例来自正类，Negetive代表预测实例来自负类；True代表预测正确，False代表预测错误。

图1：Confusion Matrix

由混淆矩阵可以计算一系列的评价指标，如accurancy、precision、recall等等。

回到ROC上来，ROC的全名叫做Receiver Operating Characteristic。ROC关注两个指标true positive rate(TPR= TP / [TP + FN] ) 和 false positive rate (FPR= FP / [FP + TN] )，直观上，TPR代表能将正例分对的概率，FPR代表将负例错分为正例的概率。在ROC 空间中，每个点的横坐标是FPR，纵坐标是TPR，这也就描绘了分类器在TP（真正的正例）和FP（错误的正例）间的trade-off。ROC的主要分析工具是一个画在ROC空间的曲线——ROC curve。我们知道，对于二值分类问题，实例的值往往是连续值，我们通过设定一个阈值，将实例分类到正类或者负类（比如大于阈值划分为正类）。因此我们可以变化阈值，根据不同的阈值进行分类，根据分类结果计算得到ROC空间中相应的点，连接这些点就形成ROC curve。ROC curve经过（0,0）（1,1），实际上(0, 0)和(1, 1)连线形成的ROC curve实际上代表的是一个随机分类器。一般情况下，这个曲线都应该处于(0, 0)和(1, 1)连线的上方。如图2所示。

图2 ROC Curve

用ROC curve来表示分类器的performance很直观好用。可是，人们总是希望能有一个数值来标志分类器的好坏。于是Area Under roc Curve(AUC)就出现了。顾名思义，AUC的值就是处于ROC curve下方的那部分面积的大小。通常，AUC的值介于0.5到1.0之间，较大的AUC代表了较好的performance。

计算ROC curve的AUC值的代码可以在这找到。

参考资料：
查看全文

相关阅读:
python例子-开始一个Django项目
 python例子-Django常用命令
 PHP
Yii 关于 find findAll 查找出制定的字段的方法
 new static() 和 new self() 的区别异同
 Android
PHP里10个鲜为人知但却非常有用的函数
 PHP 各种函数
 Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式']
PHP中使用curlL实现GET和POST请求的方法

原文地址：https://www.cnblogs.com/549294286/p/3621806.html