机器学习评价指标大汇总

zoukankan html css js c++ java

机器学习评价指标大汇总

http://charleshm.github.io/

在使用机器学习算法的过程中，针对不同场景需要不同的评价指标，在这里对常用的指标进行一个简单的汇总。

一、分类

1. 精确率与召回率

精确率与召回率多用于二分类问题。精确率（Precision）指的是模型判为正的所有样本中有多少是真正的正样本；召回率（Recall）指的是所有正样本有多少被模型判为正样本，即召回。设模型输出的正样本集合为 $A$

$Precision (A, B) = \frac{‖ A ⋂ B ‖}{‖ A ‖}, Recall (A, B) = \frac{‖ A ⋂ B ‖}{‖ B ‖}$

有时候我们需要在精确率与召回率间进行权衡，一种选择是画出精确率-召回率曲线（Precision-Recall Curve），曲线下的面积被称为AP分数（Average precision score）；另外一种选择是计算 $F_{β}$

$F_{β} = (1 + β^{2}) \cdot \frac{precision \cdot recall}{β^{2} \cdot precision + recall}$

当 $β = 1$

2. ROC

设模型输出的正样本集合为 $A$

ROC曲线适用于二分类问题，以假正率为横坐标，真正率为纵坐标的曲线图，如：

AUC分数是曲线下的面积（Area under curve），越大意味着分类器效果越好。

3. 对数损失

对数损失（Log loss）亦被称为逻辑回归损失（Logistic regression loss）或交叉熵损失（Cross-entropy loss）。

对于二分类问题，设 $y \in {0, 1}$

$L_{l o g} (y, p) = - \log P r (y ‖ p) = - (y \log (p) + (1 - y) \log (1 - p))$

可以很容易地将其扩展到多分类问题上。设 $Y$

$L_{\log} (Y_{i}, P_{i}) = - \log P r (Y_{i} ‖ P_{i}) = \sum_{k = 1}^{K} y_{i, k} \log p_{i, k}$

4. 铰链损失

铰链损失（Hinge loss）一般用来使“边缘最大化”（maximal margin）。

铰链损失最开始出现在二分类问题中，假设正样本被标记为1，负样本被标记为-1， $y$

$L_{Hinge} (w, y) = max {1 - w y, 0} = ‖ 1 - w y ‖_{+}$

然后被扩展到多分类问题，假设 $y_{w}$

$L_{Hinge} (y_{w}, y_{t}) = max {1 + y_{t} - y_{w}, 0}$

注意，二分类情况下的定义并不是多分类情况下定义的特例。

5. 混淆矩阵

混淆矩阵（Confusion Matrix）又被称为错误矩阵，通过它可以直观地观察到算法的效果。它的每一列是样本的预测分类，每一行是样本的真实分类（反过来也可以），顾名思义，它反映了分类结果的混淆程度。混淆矩阵 $i$

6. kappa系数

kappa系数（Cohen’s kappa）用来衡量两种标注结果的吻合程度，标注指的是把N个样本标注为C个互斥类别。计算公式为

$K = \frac{p_{o} - p_{e}}{1 - p_{e}} = 1 - \frac{1 - p_{o}}{1 - p_{e}}$

其中 $p_{o}$

是不是云里来雾里去的，现在举个栗子，对于50个测试样本的二分类问题，预测与真实分布情况如下表：

GROUND

1 0

PREDICT 1 20 5

0 10 15

预测与真实值相符共有20+15个，则观察到的符合比例为 $p_{o} = (20 + 15) / 50 = 0.7$

7. 准确率

准确率（Accuracy）衡量的是分类正确的比例。设 ${\hat{y}}_{i}$

$a c c u r a c y = \frac{1}{n_{s a m p l e}} \sum_{i = 1}^{n_{s a m p l e}} 1 ({\hat{y}}_{i} = y_{i})$

其中 $1 (x)$

虽然准确率适用范围很广，可用于多分类以及多标签等问题上，但在多标签问题上很严格，在有些情况下区分度较差。

8. 海明距离

海明距离（Hamming Distance）用于需要对样本多个标签进行分类的场景。对于给定的样本 $i$

$D_{H a m m i n g} ({\hat{y}}_{i}, y_{i}) = \frac{1}{L} \sum_{j = 1}^{L} 1 ({\hat{y}}_{i j} \neq y_{i j})$

其中 $1 (x)$

我们可以通过对所有样本的预测情况求平均得到算法在测试集上的总体表现情况，当标签数量 $L$

9. 杰卡德相似系数

杰卡德相似系数（ Jaccard similarity coefficients）也是用于需要对样本多个标签进行分类的场景。对于给定的样本 $i$

$J ({\hat{y}}_{i}, y_{i}) = \frac{‖ {\hat{y}}_{i} ⋂ y_{i} ‖}{‖ \hat{y_{i}} ⋃ y_{i} ‖}$

它与海明距离的不同之处在于分母。当预测结果与实际情况完全相符时，系数为1；当预测结果与实际情况完全不符时，系数为0；当预测结果是实际情况的真子集或真超集时，距离介于0到1之间。

我们可以通过对所有样本的预测情况求平均得到算法在测试集上的总体表现情况，当标签数量 $L$

10. 多标签排序

在这节我们介绍一些更精细化的多标签分类效果衡量工具。设真实标签分类情况为 $y \in {0, 1}^{n_{samples} \times n_{labels}}$

10.1 涵盖误差

涵盖误差（Coverage error）计算的是预测结果中平均包含多少真实标签，适用于二分类问题。涵盖误差定义为：

$c o v e r a g e (y, \hat{f}) = \frac{1}{n_{samples}} \sum_{i = 1}^{n_{samples}} max_{j : y_{i j} = 1} {rank}_{i j}$

其中 ${rank}_{i j} = ‖ {k : {\hat{f}}_{i k} \geq {\hat{f}}_{i j}} ‖$

10.2 标签排序平均精度

标签排序平均精度（Label ranking average precision）简称LRAP，它比涵盖误差更精细：

$L R A P (y, \hat{f}) = \frac{1}{n_{samples}} \sum_{i = 1}^{n_{samples}} \frac{1}{‖ y_{i} ‖} \sum_{j : y_{i j} = 1} \frac{‖ L_{i j} ‖}{{rank}_{i j}}$

其中 $L_{i j} = {k : y_{i k} = 1, {\hat{f}}_{i k} \geq {\hat{f}}_{i j}}$

10.3 排序误差

排序误差（Ranking loss）进一步精细考虑排序情况：

$r a n k i n g (y, \hat{f}) = \frac{1}{n_{samples}} \sum_{i = 1}^{n_{samples}} \frac{1}{‖ y_{i} ‖ (n_{labels} - ‖ y_{i} ‖))} ‖ L_{i j} ‖$

其中 $L_{i j} = {(k, l) : {\hat{f}}_{i k} < {\hat{f}}_{i j}, y_{i k} = 1, y_{i l} = 0}$

二、回归

拟合问题比较简单，所用到的衡量指标也相对直观。假设 $y_{i}$

1. 平均绝对误差

平均绝对误差MAE（Mean Absolute Error）又被称为 $l 1$

$M A E (y, \hat{y}) = \frac{1}{n_{s a m p l e s}} \sum_{i = 1}^{n_{s a m p l e s}} ‖ y_{i} - {\hat{y}}_{i} ‖$

2. 平均平方误差

$M S E (y, \hat{y}) = \frac{1}{n_{s a m p l e s}} \sum_{i = 1}^{n_{s a m p l e s}} (y_{i} - {\hat{y}}_{i})^{2}$

3. 解释变异

$explained variance (y, \hat{y}) = 1 - \frac{V a r {y - \hat{y}}}{V a r {y}}$

4. 决定系数

决定系数（Coefficient of determination）又被称为 $R^{2}$

$R^{2} (y, \hat{y}) = 1 - \frac{\sum_{i = 1}^{n_{s a m p l e s}} (y_{i} - {\hat{y}}_{i})^{2}}{\sum_{i = 1}^{n_{s a m p l e s}} (y_{i} - \bar{y})^{2}}$

其中 $\bar{y} = \frac{1}{n_{s a m p l e s}} \sum_{i = 1}^{n_{s a m p l e s}} y_{i}$

三、聚类

1 . 兰德指数

兰德指数（Rand index）需要给定实际类别信息 $C$

$R I = \frac{a + b}{C_{2}^{n_{samples}}}$

其中 $C_{2}^{n_{s a m p l e s}}$

对于随机结果，RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下，指标应该接近零”，调整兰德系数（Adjusted rand index）被提出，它具有更高的区分度：

$A R I = \frac{R I - E [R I]}{max (R I) - E [R I]}$

具体计算方式参见Adjusted Rand index。

ARI取值范围为 $[- 1, 1]$

2. 互信息

互信息（Mutual Information）也是用来衡量两个数据分布的吻合程度。假设 $U$

$H (U) = \sum_{i = 1}^{‖ U ‖} P (i) \log (P (i)), H (V) = \sum_{j = 1}^{‖ V ‖} P^{'} (j) \log (P^{'} (j))$

其中 $P (i) = ‖ U_{i} ‖ / N, P^{'} (j) = ‖ V_{j} ‖ / N$

$M I (U, V) = \sum_{i = 1}^{‖ U ‖} \sum_{j = 1}^{‖ V ‖} P (i, j) \log (\frac{P (i, j)}{P (i) P^{'} (j)})$

其中 $P (i, j) = ‖ U_{i} ⋂ V_{j} ‖ / N$

$N M I (U, V) = \frac{M I (U, V)}{\sqrt{H (U) H (V)}}$

与ARI类似，调整互信息（Adjusted mutual information）定义为：

$A M I = \frac{M I - E [M I]}{max (H (U), H (V)) - E [M I]}$

利用基于互信息的方法来衡量聚类效果需要实际类别信息，MI与NMI取值范围为 $[0, 1]$

3. 轮廓系数

轮廓系数（Silhouette coefficient）适用于实际类别信息未知的情况。对于单个样本，设 $a$

$s = \frac{b - a}{max (a, b)}$

对于一个样本集合，它的轮廓系数是所有样本轮廓系数的平均值。

轮廓系数取值范围是 $[- 1, 1]$

四、信息检索

信息检索评价是对信息检索系统性能（主要满足用户信息需求的能力）进行评估，与机器学习也有较大的相关性，感兴趣的可以参考这篇不错的博文。

五、总结

上面介绍了非常多的指标，实际应用中需要根据具体问题选择合适的衡量指标。那么具体工作中如何快速使用它们呢？优秀的Python机器学习开源项目Scikit-learn实现了上述绝指标的大多数，使用起来非常方便。

查看全文

相关阅读:
ADO.NET存取数据库数据
 2017-01-03
re模块
 random模块（随机）
sys模块
 os模块
 datetime模块
 time模块
 logging模块
 Python函数初识

原文地址：https://www.cnblogs.com/HHHAI/p/11223798.html

	GROUND
1	0
PREDICT	1	20	5
0	10	15

机器学习评价指标大汇总

http://charleshm.github.io/

一、分类

1. 精确率与召回率

2. ROC

3. 对数损失

4. 铰链损失

5. 混淆矩阵

6. kappa系数

7. 准确率

8. 海明距离

9. 杰卡德相似系数

10. 多标签排序

10.1 涵盖误差

10.2 标签排序平均精度

10.3 排序误差

二、回归

1. 平均绝对误差

2. 平均平方误差

3. 解释变异

4. 决定系数

三、聚类

1 . 兰德指数

2. 互信息

3. 轮廓系数

四、信息检索

五、总结