zoukankan      html  css  js  c++  java
  • P17 数据的划分和介绍

    https://www.bilibili.com/video/BV184411Q7Ng?p=17

     

     答:不行。

    应该:一部分训练,一部分评估。

     

     

     

     

     

     数据集举例:

     三类鸢尾花数据读取代码演示:

    """
    读取三类鸢尾花数据
    li=load_iris()
    可以直接使用函数接口实例化对象,返回的是一个字典
    """
    from sklearn.datasets import load_iris
    
    li=load_iris()
    
    print("获取特征值:")
    print(li.data)
    
    print("获取目标值:")
    print(li.target)

    运行结果:

     获取目标值:
    [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
     0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
     1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
     2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
     2 2]

    注解:

    1. 打印的特征值是个2维数组,每一行代表1一个样本,每一列代表一个特征,每个样本的特征值有4个。
    2. 共有150个样本。
    3. 类别分别是0,1,2的样本数各有50个。

    打印下描述信息:

    """
    读取三类鸢尾花数据
    li=load_iris()
    可以直接使用函数接口实例化对象,返回的是一个字典
    
    print("获取特征值:")
    print(li.data)
    
    print("获取目标值:")
    print(li.target)
    """
    from sklearn.datasets import load_iris
    
    li=load_iris()
    
    print("获取描述信息:")
    print(li.DESCR)

    运行结果:

    **Data Set Characteristics:**

        :Number of Instances: 150 (50 in each of three classes)
        :Number of Attributes: 4 numeric, predictive attributes and the class
        :Attribute Information:
            - sepal length in cm
            - sepal width in cm
            - petal length in cm
            - petal width in cm
            - class:
                    - Iris-Setosa
                    - Iris-Versicolour
                    - Iris-Virginica

    • sepal_length:花萼长度,inch(英寸)cm
    • sepal_花萼宽度,inch(英寸)cm
    • petal_length:花瓣长度,inch(英寸)cm
    • petal_花瓣宽度,inch(英寸)cm
    • 种类:setosa(山鸢尾),versicolor(杂色鸢尾),virginica(弗吉尼亚鸢尾)

    注解:

    1. 分类的目标值就是离散的值整数值:0,1,2...

     数据集分割代码演示:

    """
    读取三类鸢尾花数据
    li=load_iris()
    可以直接使用函数接口实例化对象,返回的是一个字典
    
    练习使用内置函数做数据集的划分
    参数1:li.data 特征值
    参数2:li.target 目标值
    参数3:test_size=0.25 代表测试集占25%
    注意返回值:既包含训练集,特征值记为x_train,目标值记为y_train
    又包含测试集,特征值记为x_test,目标值记为y_test
    注意返回值的顺序不能写错,返回值的顺序是:
    训练集中的特征值,测试集中特征值,训练集中目标值,测试集中的目标值
    """
    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    
    li=load_iris()
    
    x_train,x_test,y_train,y_test=train_test_split(li.data,li.target,test_size=0.25)
    
    print("训练集的特征值和目标值是:
    ",x_train,'
    ',y_train)
    print("测试集的特征值和目标值是:
    ",x_test,'
    ',y_test)

    运行结果:

    C:UsersTJAppDataLocalProgramsPythonPython37python.exe D:/qcc/python/mnist/dataset_split_P17.py
    训练集的特征值和目标值是:
     [[6.9 3.1 4.9 1.5]
     [7.7 3.  6.1 2.3]
     [6.  2.2 4.  1. ]
     [6.3 2.8 5.1 1.5]
     [5.4 3.4 1.7 0.2]
     [6.4 3.1 5.5 1.8]
     [6.6 3.  4.4 1.4]
     [6.1 3.  4.9 1.8]
     [5.7 2.9 4.2 1.3]
     [6.  2.9 4.5 1.5]
     [5.7 4.4 1.5 0.4]
     [5.1 2.5 3.  1.1]
     [6.7 2.5 5.8 1.8]
     [7.3 2.9 6.3 1.8]
     [4.8 3.  1.4 0.1]
     [5.5 2.5 4.  1.3]
     [5.  3.3 1.4 0.2]
     [4.7 3.2 1.6 0.2]
     [6.2 2.2 4.5 1.5]
     [5.6 2.7 4.2 1.3]
     [6.4 2.9 4.3 1.3]
     [5.7 2.6 3.5 1. ]
     [6.8 3.  5.5 2.1]
     [5.  3.4 1.6 0.4]
     [6.3 2.7 4.9 1.8]
     [5.4 3.  4.5 1.5]
     [4.6 3.6 1.  0.2]
     [5.7 3.  4.2 1.2]
     [5.8 2.6 4.  1.2]
     [6.9 3.2 5.7 2.3]
     [4.8 3.4 1.6 0.2]
     [5.5 3.5 1.3 0.2]
     [5.7 2.8 4.5 1.3]
     [7.7 2.6 6.9 2.3]
     [6.7 3.1 4.4 1.4]
     [6.3 3.4 5.6 2.4]
     [5.  3.2 1.2 0.2]
     [4.6 3.4 1.4 0.3]
     [6.5 3.2 5.1 2. ]
     [4.9 2.4 3.3 1. ]
     [5.2 3.5 1.5 0.2]
     [5.6 2.8 4.9 2. ]
     [5.8 2.8 5.1 2.4]
     [5.  2.3 3.3 1. ]
     [4.8 3.4 1.9 0.2]
     [5.7 2.8 4.1 1.3]
     [5.8 4.  1.2 0.2]
     [6.2 2.8 4.8 1.8]
     [5.1 3.4 1.5 0.2]
     [4.9 3.  1.4 0.2]
     [4.6 3.1 1.5 0.2]
     [7.  3.2 4.7 1.4]
     [5.5 2.4 3.7 1. ]
     [6.4 3.2 5.3 2.3]
     [5.5 2.6 4.4 1.2]
     [5.1 3.8 1.6 0.2]
     [6.  2.7 5.1 1.6]
     [5.1 3.7 1.5 0.4]
     [6.5 2.8 4.6 1.5]
     [4.8 3.  1.4 0.3]
     [6.3 2.5 4.9 1.5]
     [6.3 2.3 4.4 1.3]
     [5.4 3.4 1.5 0.4]
     [7.2 3.  5.8 1.6]
     [6.4 3.2 4.5 1.5]
     [6.1 2.9 4.7 1.4]
     [6.3 3.3 4.7 1.6]
     [5.8 2.7 5.1 1.9]
     [7.2 3.6 6.1 2.5]
     [6.7 3.  5.  1.7]
     [6.3 2.9 5.6 1.8]
     [5.4 3.9 1.3 0.4]
     [6.4 2.8 5.6 2.1]
     [5.6 3.  4.1 1.3]
     [6.2 2.9 4.3 1.3]
     [5.  2.  3.5 1. ]
     [7.6 3.  6.6 2.1]
     [5.9 3.2 4.8 1.8]
     [6.8 2.8 4.8 1.4]
     [7.1 3.  5.9 2.1]
     [6.8 3.2 5.9 2.3]
     [6.5 3.  5.2 2. ]
     [5.8 2.7 3.9 1.2]
     [5.4 3.7 1.5 0.2]
     [5.6 2.5 3.9 1.1]
     [5.1 3.5 1.4 0.2]
     [4.4 2.9 1.4 0.2]
     [5.2 2.7 3.9 1.4]
     [4.7 3.2 1.3 0.2]
     [6.  2.2 5.  1.5]
     [6.3 3.3 6.  2.5]
     [4.9 3.1 1.5 0.2]
     [6.7 3.1 5.6 2.4]
     [5.1 3.8 1.5 0.3]
     [4.5 2.3 1.3 0.3]
     [5.1 3.5 1.4 0.3]
     [6.1 2.8 4.  1.3]
     [7.4 2.8 6.1 1.9]
     [4.9 2.5 4.5 1.7]
     [5.9 3.  4.2 1.5]
     [5.7 3.8 1.7 0.3]
     [5.  3.6 1.4 0.2]
     [6.5 3.  5.8 2.2]
     [5.6 2.9 3.6 1.3]
     [5.8 2.7 5.1 1.9]
     [5.6 3.  4.5 1.5]
     [5.9 3.  5.1 1.8]
     [6.3 2.5 5.  1.9]
     [6.7 3.1 4.7 1.5]
     [6.9 3.1 5.1 2.3]
     [6.1 3.  4.6 1.4]
     [6.2 3.4 5.4 2.3]]
     [1 2 1 2 0 2 1 2 1 1 0 1 2 2 0 1 0 0 1 1 1 1 2 0 2 1 0 1 1 2 0 0 1 2 1 2 0
     0 2 1 0 2 2 1 0 1 0 2 0 0 0 1 1 2 1 0 1 0 1 0 1 1 0 2 1 1 1 2 2 1 2 0 2 1
     1 1 2 1 1 2 2 2 1 0 1 0 0 1 0 2 2 0 2 0 0 0 1 2 2 1 0 0 2 1 2 1 2 2 1 2 1
     2]
    测试集的特征值和目标值是:
     [[6.7 3.  5.2 2.3]
     [5.7 2.5 5.  2. ]
     [4.6 3.2 1.4 0.2]
     [6.4 2.8 5.6 2.2]
     [6.7 3.3 5.7 2.5]
     [5.5 2.4 3.8 1.1]
     [4.3 3.  1.1 0.1]
     [5.2 4.1 1.5 0.1]
     [6.5 3.  5.5 1.8]
     [6.6 2.9 4.6 1.3]
     [4.4 3.2 1.3 0.2]
     [6.7 3.3 5.7 2.1]
     [5.5 2.3 4.  1.3]
     [6.1 2.6 5.6 1.4]
     [5.4 3.9 1.7 0.4]
     [6.4 2.7 5.3 1.9]
     [6.  3.4 4.5 1.6]
     [5.3 3.7 1.5 0.2]
     [6.9 3.1 5.4 2.1]
     [5.2 3.4 1.4 0.2]
     [4.4 3.  1.3 0.2]
     [6.  3.  4.8 1.8]
     [5.  3.4 1.5 0.2]
     [7.9 3.8 6.4 2. ]
     [5.  3.  1.6 0.2]
     [5.8 2.7 4.1 1. ]
     [7.7 2.8 6.7 2. ]
     [5.1 3.3 1.7 0.5]
     [5.5 4.2 1.4 0.2]
     [4.8 3.1 1.6 0.2]
     [5.1 3.8 1.9 0.4]
     [7.7 3.8 6.7 2.2]
     [6.1 2.8 4.7 1.2]
     [5.  3.5 1.3 0.3]
     [5.  3.5 1.6 0.6]
     [7.2 3.2 6.  1.8]
     [4.9 3.1 1.5 0.1]
     [4.9 3.6 1.4 0.1]]
     [2 2 0 2 2 1 0 0 2 1 0 2 1 2 0 2 1 0 2 0 0 2 0 2 0 1 2 0 0 0 0 2 1 0 0 2 0
     0]

    Process finished with exit code 0
    注解:

    1. 训练集占75%,测试集占25%。
    2. 默认是训练集和测试集随机的抽取,相当于打乱顺序后的抽取。

     注解:

    1. 新闻类的分类。

     注解:

    1. 5-50的单位可以是10万,指的是房价,即目标值。

    波士顿房价数据集获取的代码演示:

    """
    获取波士顿房价数据集
    """
    from sklearn.datasets import load_boston
    
    
    lboston=load_boston()
    
    
    print("获取特征值:")
    print(lboston.data)
    
    print("获取目标值:")
    print(lboston.target)

    运行结果:

    C:UsersTJAppDataLocalProgramsPythonPython37python.exe "D:/qcc/python/mnist/get_boston_real estate_data_P17.py"
    获取特征值:
    [[6.3200e-03 1.8000e+01 2.3100e+00 ... 1.5300e+01 3.9690e+02 4.9800e+00]
     [2.7310e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9690e+02 9.1400e+00]
     [2.7290e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9283e+02 4.0300e+00]
     ...
     [6.0760e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 5.6400e+00]
     [1.0959e-01 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9345e+02 6.4800e+00]
     [4.7410e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 7.8800e+00]]
    获取目标值:
    [24.  21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 15.  18.9 21.7 20.4
     18.2 19.9 23.1 17.5 20.2 18.2 13.6 19.6 15.2 14.5 15.6 13.9 16.6 14.8
     18.4 21.  12.7 14.5 13.2 13.1 13.5 18.9 20.  21.  24.7 30.8 34.9 26.6
     25.3 24.7 21.2 19.3 20.  16.6 14.4 19.4 19.7 20.5 25.  23.4 18.9 35.4
     24.7 31.6 23.3 19.6 18.7 16.  22.2 25.  33.  23.5 19.4 22.  17.4 20.9
     24.2 21.7 22.8 23.4 24.1 21.4 20.  20.8 21.2 20.3 28.  23.9 24.8 22.9
     23.9 26.6 22.5 22.2 23.6 28.7 22.6 22.  22.9 25.  20.6 28.4 21.4 38.7
     43.8 33.2 27.5 26.5 18.6 19.3 20.1 19.5 19.5 20.4 19.8 19.4 21.7 22.8
     18.8 18.7 18.5 18.3 21.2 19.2 20.4 19.3 22.  20.3 20.5 17.3 18.8 21.4
     15.7 16.2 18.  14.3 19.2 19.6 23.  18.4 15.6 18.1 17.4 17.1 13.3 17.8
     14.  14.4 13.4 15.6 11.8 13.8 15.6 14.6 17.8 15.4 21.5 19.6 15.3 19.4
     17.  15.6 13.1 41.3 24.3 23.3 27.  50.  50.  50.  22.7 25.  50.  23.8
     23.8 22.3 17.4 19.1 23.1 23.6 22.6 29.4 23.2 24.6 29.9 37.2 39.8 36.2
     37.9 32.5 26.4 29.6 50.  32.  29.8 34.9 37.  30.5 36.4 31.1 29.1 50.
     33.3 30.3 34.6 34.9 32.9 24.1 42.3 48.5 50.  22.6 24.4 22.5 24.4 20.
     21.7 19.3 22.4 28.1 23.7 25.  23.3 28.7 21.5 23.  26.7 21.7 27.5 30.1
     44.8 50.  37.6 31.6 46.7 31.5 24.3 31.7 41.7 48.3 29.  24.  25.1 31.5
     23.7 23.3 22.  20.1 22.2 23.7 17.6 18.5 24.3 20.5 24.5 26.2 24.4 24.8
     29.6 42.8 21.9 20.9 44.  50.  36.  30.1 33.8 43.1 48.8 31.  36.5 22.8
     30.7 50.  43.5 20.7 21.1 25.2 24.4 35.2 32.4 32.  33.2 33.1 29.1 35.1
     45.4 35.4 46.  50.  32.2 22.  20.1 23.2 22.3 24.8 28.5 37.3 27.9 23.9
     21.7 28.6 27.1 20.3 22.5 29.  24.8 22.  26.4 33.1 36.1 28.4 33.4 28.2
     22.8 20.3 16.1 22.1 19.4 21.6 23.8 16.2 17.8 19.8 23.1 21.  23.8 23.1
     20.4 18.5 25.  24.6 23.  22.2 19.3 22.6 19.8 17.1 19.4 22.2 20.7 21.1
     19.5 18.5 20.6 19.  18.7 32.7 16.5 23.9 31.2 17.5 17.2 23.1 24.5 26.6
     22.9 24.1 18.6 30.1 18.2 20.6 17.8 21.7 22.7 22.6 25.  19.9 20.8 16.8
     21.9 27.5 21.9 23.1 50.  50.  50.  50.  50.  13.8 13.8 15.  13.9 13.3
     13.1 10.2 10.4 10.9 11.3 12.3  8.8  7.2 10.5  7.4 10.2 11.5 15.1 23.2
      9.7 13.8 12.7 13.1 12.5  8.5  5.   6.3  5.6  7.2 12.1  8.3  8.5  5.
     11.9 27.9 17.2 27.5 15.  17.2 17.9 16.3  7.   7.2  7.5 10.4  8.8  8.4
     16.7 14.2 20.8 13.4 11.7  8.3 10.2 10.9 11.   9.5 14.5 14.1 16.1 14.3
     11.7 13.4  9.6  8.7  8.4 12.8 10.5 17.1 18.4 15.4 10.8 11.8 14.9 12.6
     14.1 13.  13.4 15.2 16.1 17.8 14.9 14.1 12.7 13.5 14.9 20.  16.4 17.7
     19.5 20.2 21.4 19.9 19.  19.1 19.1 20.1 19.9 19.6 23.2 29.8 13.8 13.3
     16.7 12.  14.6 21.4 23.  23.7 25.  21.8 20.6 21.2 19.1 20.6 15.2  7.
      8.1 13.6 20.1 21.8 24.5 23.1 19.7 18.3 21.2 17.5 16.8 22.4 20.6 23.9
     22.  11.9]

    Process finished with exit code 0
    注解:

    1. 获取的特征值每一行有13个,代表每个样本有13个特征值。
    2. 每一行代表一个样本。
    3. 目标值的单位是:万,是连续型数值。
  • 相关阅读:
    使用SQL Server Management Studio操作replication时,要用机器名登录,不要用IP地址
    SQL Server Replication 总结
    SQL Server 全文索引的硬伤(转载)
    Sqlserver2008及以上使用全文索引排除干扰词 (转载)
    如何恢复VS2013代码实时校验功能
    [VS2013]如何闪开安装VS2013必须要有安装IE10的限制
    C# ASP.NET Webservice调用外部exe无效的解决方法
    nstallShield制作打包程序详解(图)
    VS报错之混合模式程序集是针对“v1.1.4322”版的运行时生成的,在没有配置其他信息的情况下,无法在 4.0 运行时中加载该程序集。
    Android之悬浮窗口实现(WindowManager)
  • 原文地址:https://www.cnblogs.com/yibeimingyue/p/14214257.html
Copyright © 2011-2022 走看看