zoukankan      html  css  js  c++  java
  • 分类问题(二)分类器的性能衡量

    性能衡量

    评估一个分类器的性能一般比评估一个回归器(regressor)更为复杂,所以我们会在这里大篇幅介绍分类器的性能评估,并且它也有多种评估方法。

    使用CV衡量准确度

    一个比较好的评估模型的办法是使用交叉验证。sk-learn提供了一个交叉验证精准度的方法cross_val_score(),不过有时候若是需要实现一些自定义的目标,也可以实现一个交叉验证的方法。例如:

    from sklearn.model_selection import StratifiedKFold
    from sklearn.base import clone
    
    skfolds = StratifiedKFold(n_splits=3, random_state=42)
    for train_index, test_index in skfolds.split(X_train, y_train_5):
        clone_clf = clone(sgd_clf)
        X_train_folds = X_train[train_index]
        y_train_folds = y_train_5[train_index]
        X_test_fold = X_train[test_index]
        y_test_fold = y_train[test_index]
    clone_clf.fit(X_train_folds, y_train_folds) y_pred
    = clone_clf.predict(X_test_fold) n_correct = sum(y_pred == y_test_fold) print(n_correct / len(y_pred)) >0.09925 0.09675 0.10035

    这个代码实现了 corss_val_score() 同样的功能。StratifiedKFold类会做分层采样,生成多个“折”。在每轮的迭代中,首先创建之前分类器的克隆,然后在每个“折”训练集上训练这个分类器,并在“折”测试集上进行预测,并最后计算预测的正确率。

    然后我们试试直接用cross_val_score() 方法评估之前训练好的 SGDClassifier模型,使用的也是K-折交叉验证,指定3折。再次提醒一下大家,K-折交叉验证是指:将训练集分割为K个折(这里是3折),然后在每个“折”的数据上进行预测以及评估,使用非此“折”的训练数据进行训练。在这个例子中,训练集是60000,分成3折是每折20000。所以训练数据是40000,每次均在20000条验证集上做评估。

    from sklearn.model_selection import cross_val_score
    cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring='accuracy')
    >array([0.95035, 0.96035, 0.9604 ])

    从验证集的评估来看,准确率达到了95% 以上,是一个非常高的准确率。这个结果看起来非常好,但是为什么说是“看起来非常好呢”?下面我们试试另一个非常蠢的分类器,这个分类器对每副图片仅输出“这个图片不是数字5”:

    from sklearn.base import BaseEstimator
    class Never5Classifier(BaseEstimator): def fit(self, X, y=None): pass def predict(self, X): return np.zeros((len(X), 1), dtype=bool)

    大家可以猜测一下,这个模型的准确率是多少:

    never_5_clf = Never5Classifier()
    cross_val_score(never_5_clf, X_train, y_train_5, cv=3, scoring='accuracy')
    >array([0.91125, 0.90855, 0.90915])

    准确率高达90%以上!为什么会这样呢?

    这是因为在所有图片中,仅有10%的图片是数字5。所以如果只是猜测图片不是数字5,都有高达90%以上的正确率。

    以上这个例子说明了:为什么准确率对于分类器来说,一般不是一个好的性能评估方案,特别是在处理倾斜数据集(skewed datasets,也就是说有些类别的占比远大于其他类别)时。

    接下来我们会介绍其他几种更好的衡量分类器的方法。

  • 相关阅读:
    GateWay程序分析02_IAP_FLASH.H
    GateWay程序分析05_WDT.h
    GateWay程序分析03_timer.h
    GateWay程序分析_主函数_02整体流程
    网关系统软件设计_系统需求分析v1
    [收藏]DIV中图片居中
    CSS HACK 手记
    一道题“谁养鱼”的穷举解法。
    简单好用的联动下拉控件(修正)
    权限认证的WEB页面实施
  • 原文地址:https://www.cnblogs.com/zackstang/p/12323298.html
Copyright © 2011-2022 走看看