zoukankan      html  css  js  c++  java
  • 分离数据集的方法

    (1)K折交叉验证(KFold):通常K选取值为3、5、10

       当不能确定使用何种验证方法时,可采用K折验证法;

       当不知确定K的取值时,最优的情况是选10。

    (2)分离训练数据集合评估数据集(train_test_split)

          执行效率非常高,可以有效的解决某些算法执行速度慢的问题,也可以解决数据量大的问题

          在指定分离数据大小的同时,可以对其随机粒度进行指定(seed),可以保证其每次执行都可以得到相同的结果,可以用于比较不同算法生成的模型的结果

    (3)弃一交叉验证分离(LeaveOneOut)

        若样本有N个,那么就会有N个模型,所以评估所得的结果非常可靠,但是成本非常的高。

        常用于平衡评估算法,模型训练的速度和数据量的大小。

    (4)重复随机分离评估数据集和训练数据集(ShuffleSplit)

        该过程类似于多次交叉验证分离;

                  常用于平衡评估算法,模型训练的速度和数据量的大小。

    kfold = ShuffleSplit(n_split = 10 , test_size = 0.33 ,r andom_state=seed)

    result = cross_val_score(LogisticRegression(),X,Y,cv=kfold)

  • 相关阅读:
    走进MongoDB(二)
    走进MongoDB(一)
    InnoDB锁与事务模型
    InnoDB引擎架构的主要组件构成
    InnoDB多版本存储引擎简介
    mysql 数据库备份与恢复
    mysql 字符集
    java常见问题笔记
    mysql5.7 Installing MySQL on Microsoft Windows Using a noinstall Zip Archive(mysql解压版安装)
    作业day03吴童
  • 原文地址:https://www.cnblogs.com/Cheryol/p/11485451.html
Copyright © 2011-2022 走看看