zoukankan      html  css  js  c++  java
  • 模型验证方法

    注:本文是人工智能研究网的学习笔记

    模型验证方法一览

    名称 模块
    通过交叉验证计算得分 model_selection.cross_val_score(estimator, X)
    对每个输入点产生交叉验证估计 model_selection.cross_val_predict(estimator, X)
    计算并绘制模型的学习率曲线 model_selection.learning_curve(estimator, X, y)
    计算并绘制模型的验证曲线 model_selection.validation_curve(estimator, ...)
    通过排序评估交叉验证defender重要性 model_selection.permutation_test_score(...)

    通过交叉验证计算得分

    cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')
    

    参数:

    • estimator: 实现了'fit'函数的学习器
    • X: array-like,需要学习的数据,可以是列表或者2d数组
    • y: 可选的,默认是None,监督学习中样本特征向量的真实目标值
    • scroing: srting,callable or None,可选的,默认是None,
      一个字符串或者一个scorer可调用对象或者函数,必须实现scorer(estimator, X, y)
    • cv: int,交叉验证生成器或者一个迭代器,可选的,默认是None,决定交叉验证划分策略
      cv的可选项有以下的几种
    1. None: 使用默认的3-fold交叉验证
    2. Interger:指定在(Stratified)kfold中使用的‘折’的数量
    3. 可以用作交叉验证生成器的一个对象
    4. 一个能够产生train/test划分的迭代器对象

    对于integer/None类型的输入,如果estimator是一个分类器并且y是对应的类标签,则默认使用StratifiedKFold,其他的情况默认使用kfold

    返回值:

    • scores:浮点数组, shape=(len(list(cv)),)每一次交叉验证得分弄成一个数组,默认是三次,三个得分。
    from sklearn.model_selection import cross_val_score
    import numpy as np
    from sklearn import datasets, svm
    
    digits = datasets.load_digits()
    X = digits.data
    y = digits.target
    
    svc = svm.SVC(kernel='linear')  # C 结构因子最小化因子
    C_s = np.logspace(-10, 0, 10)
    print('参数列表长度:', len(C_s))
    scores = list()
    scores_std = list()
    for C in C_s:
        svc.C = C
        this_scores = cross_val_score(svc, X, y, n_jobs=4)  # 指定并行数量
        scores.append(np.mean(this_scores))
        scores_std.append(np.std(this_scores))
    # 绘制交叉验证曲线
    import matplotlib.pyplot as plt
    plt.figure(1, figsize=(4,3))
    plt.clf()
    plt.semilogx(C_s, scores)
    plt.semilogx(C_s, np.array(scores) + np.array(scores_std) , 'b--')
    plt.semilogx(C_s, np.array(scores) - np.array(scores_std) , 'b--')
    locs, labels= plt.yticks()
    plt.yticks(locs, list(map(lambda x: "%g" %x, locs)))
    plt.ylabel('CV score')
    plt.xlabel('Parameter C')
    plt.ylim(0, 1.1)
    plt.show()
    

    对每个输入点产生交叉验证估计

    cross_val_predict(estimator, X, y=None, groups=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', method='predict')
    

    参数:

    • method 字符串,可选,默认是'predict'

    返回值:

    • predictions: ndarray 预测结果

    计算并绘制模型的学习率曲线

    learning_curve(estimator, X, y, groups=None, train_sizes=array([ 0.1  ,  0.325,  0.55 ,  0.775,  1.   ]), cv=None, scoring=None, exploit_incremental_learning=False, n_jobs=1, pre_dispatch='all', verbose=0)
    

    参数:

    • train_sizes: array-like, shape(n_ticks,), dtype=float or int 用于指定训练样本子集的相对数量或者绝对数量,如果是浮点数,将会被视作整体训练集最大数量的百分比,所以必须在(0,1)之间,如果是int整型,就是绝对的数量,不能超过整体训练集的样本量。对于分类问题,训练子集的大小必须能够保证每个类至少有一个样本。

    返回值:

    • train_sizes_abs
    • train_scores
    • test_scores

    学习率曲线:

    计算指定的学习器模型在不同大小的训练集上经过交叉验证的训练得分和测试得分。

    首先,用一个交叉验证生成器划分整体数据集K次,每一次都有一个训练集和测试集,然后从第k次的训练集中拿出若干个数量不断增长的子集,在这些子训练集上训练模型。然后在计算模型在对应的子训练集和测试集上的得分。最后,对于在每种子训练集大小下,将K次训练集和测试集得分分别进行平均。

    计算并绘制模型的验证曲线

    validation_curve(estimator, X, y, param_name, param_range, groups=None, cv=None, scoring=None, n_jobs=1, pre_dispatch='all', verbose=0)
    

    返回值:

    • train_scores array.shape(n_ticks, n_cv_folds)
    • test_scores

    验证曲线:

    当某个参数不断变化的时候,在每一个取值上计算出的模型在训练集和测试集上得分,在一个不断变化的参数上计算学习器模型的得分。这类似于只有一个参数的网格搜索。但是这个函数也会计算训练集上的得分。

  • 相关阅读:
    敏捷开发模式下的质量管理
    杨学明老师软件测试管理公开课将于2012年11月16日~17日在北京举办!
    杨学明老师为南京某机电企业成功举办两天IPD DRY RUN !
    软件测试管理公开课在北京成功举办!
    2012年12月4至6日,杨学明老师为中国科学院某研究所举办两天的软件项目管理和测试管理培训!
    杨老师“软件测试管理”公开课在北京成功举办!
    软件测试为什么失败?
    如何实现高效的产品测试管理杨学明
    杨学明老师软件测试管理公开课将于2012年9月21~22日在深圳举办!
    2011年9月23《软件测试管理》公开课,接受报名!
  • 原文地址:https://www.cnblogs.com/cnkai/p/7755114.html
Copyright © 2011-2022 走看看