zoukankan html css js c++ java

python机器学习-数据集划分

机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

划分比例：

训练集：70% 80% 75%
测试集：30% 20% 30%

数据集划分api

sklearn.model_selection.train_test_split(arrays, *options)
- x 数据集的特征值
- y 数据集的标签值
- test_size 测试集的大小，一般为float
- random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
- return 测试集特征训练集特征值值，训练标签，测试标签(默认随机取)

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


def datasets_demo():
    """
    对鸢尾花数据集的演示
    :return: None
    """
    # 1、获取鸢尾花数据集
    iris = load_iris()
    print("鸢尾花数据集的返回值：
", iris)
    # 返回值是一个继承自字典的Bench
    print("鸢尾花的特征值:
", iris["data"])
    print("鸢尾花的目标值：
", iris.target)
    print("鸢尾花特征的名字：
", iris.feature_names)
    print("鸢尾花目标值的名字：
", iris.target_names)
    print("鸢尾花的描述：
", iris.DESCR)

    # 2、对鸢尾花数据集进行分割
    # 训练集的特征值x_train 测试集的特征值x_test 训练集的目标值y_train 测试集的目标值y_test
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    print("x_train:
", x_train.shape)
    # 随机数种子
    x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, random_state=6)
    x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)
    print("如果随机数种子不一致：
", x_train == x_train1)
    print("如果随机数种子一致：
", x_train1 == x_train2)

    return None

查看全文

相关阅读:
希尔排序算法
 直接插入排序和折半插入排序算法
 快排序算法
 部分博文目录索引（C语言+算法）
Gnome排序算法
 选择排序算法
 pip运行报错Fatal error in launcher: Unable to create process using pip.exe
Java Selenium封装--RemoteWebDriver
Java Selenium封装--RemoteWebElement
selenium webdriver自动化对日期控件的处理

原文地址：https://www.cnblogs.com/fengchuiguobanxia/p/15432470.html