zoukankan      html  css  js  c++  java
  • sklearn之划分数据集

     

    随机划分

    from sklearn.model_select import train_test_split

    x_train, x_test, y_train,y_test = train_test_split(x, y, test_size=0.25, ramdon_state=0)

    参数解释:

    x:被划分的样本特征集

    y:被划分的样本标签

    test_size:如果是浮点数,在0-1之间,表示样本占比;如果是整数的话就是样本数量

    random_state:随机数的种子。可以看作是数据划分规则ID,取值范围为0-2^32。等于0或None时可以理解为随机分配一个整数给random_state,会导致每次运行结果不同。一般都会固定数值,防止运行结果不同。

    比如有数据集[1,2,3,4,5,6,7,8,9],我们确定test_size=3,那问题是应该取哪三个数作为test set呢,这时候就应该使用random_state来确定随机规则:random_state=1,它按一定的规则去取出数据;random_state=2时,它又换成另一种规则去取数据。

  • 相关阅读:
    JS OOP -03 JS类的实现
    python 配置文件__ConfigParser
    1103_ddt 数据处理
    1101_数据处理优化
    了解 ptyhon垃圾回收机制
    10_30_unittest
    10_27_unittest
    10_27_requests模块
    知识积累 哈。。。
    Python练习
  • 原文地址:https://www.cnblogs.com/myshuzhimei/p/11778597.html
Copyright © 2011-2022 走看看