zoukankan      html  css  js  c++  java
  • Sklearn-train_test_split随机划分训练集和测试集

    sklearn.model_selection.train_test_split 

    sklearn.model_selection.train_test_split*数组**选项[来源]

    将数组或矩阵拆分为随机序列和测试子集

    包含输入验证和应用程序的快速实用程序, 用于将数据输入到单个调用中,以便在oneliner中拆分(并可选地进行子采样)数据。next(ShuffleSplit().split(X, y))

    阅读用户指南中的更多内容

    参数:

    *数组:具有相同长度/形状的可索引序列[0]

    允许的输入是列表,numpy数组,scipy-sparse矩阵或pandas数据帧。

    test_size:float,int,None,optional

    如果为float,则应介于0.0和1.0之间,并表示要包含在测试拆分中的数据集的比例。如果是int,则表示测试样本的绝对数量。如果为None,则将该值设置为列车大小的补码。默认情况下,该值设置为0.25。默认值将在版本0.21中更改。只有在train_size未指定时才会保持0.25 ,否则它将补充指定的train_size

    train_size:float,int或None,默认为None

    如果为float,则应介于0.0和1.0之间,并表示要包含在列车拆分中的数据集的比例。如果是int,则表示列车样本的绝对数量。如果为None,则该值将自动设置为测试大小的补码。

    random_state:int,RandomState实例或None,可选(默认=无)

    如果是int,则random_state是随机数生成器使用的种子; 如果是RandomState实例,则random_state是随机数生成器; 如果没有,随机数生成器所使用的RandomState实例np.random

    shuffle:boolean,optional(default = True)

    是否在拆分之前对数据进行洗牌。如果shuffle = False,则分层必须为None。

    stratify:array-like或None(默认为None)

    如果不是None,则数据以分层方式拆分,使用此作为类标签。

    返回:

    拆分:列表,长度= 2 * len(数组)

    包含列车测试输入分组的列表。

    版本0.16中的新增内容:如果输入是稀疏的,则输出将为a scipy.sparse.csr_matrix否则,输出类型与输入类型相同。

  • 相关阅读:
    分布式文件系统:HDFS
    MapReduce处理流程
    Maven之pom知识点
    Junit单元测试
    Mybatis中@param注解
    kafka在Maven项目中的使用
    无线/安卓安全课堂内容
    C中经常忘记的一些东西
    基于七牛API开发的前端JavaScript SDK
    常见名词解释
  • 原文地址:https://www.cnblogs.com/sjy18039225956/p/9338754.html
Copyright © 2011-2022 走看看