zoukankan      html  css  js  c++  java
  • sklearn数据集

    数据集划分:

      机器学习一般的数据集会划分为两个部分

    训练数据:

      用于训练,构建模型

    测试数据:

      在模型检验时使用,用于评估模型是否有效

    sklearn数据集划分API:

    代码示例文末!

    scikit-learn数据集API:

     获取数据集的返回类型:

     数据集进行分割:

     代码示例:

     1 import os
     2 from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
     3 from sklearn.model_selection import train_test_split
     4 
     5 
     6 li = load_iris()  # sklearn库具有获取数据的接口
     7 
     8 print(li.data)  # 获取特征值
     9 print()
    10 # 0、1、2分别代表鸾尾花的三个类别
    11 print(li.target)  #获取目标值
    12 
    13 print(li.DESCR)  # 打印描述,150个样本,四个特征,三个类别
    14 
    15 print(li.feature_names)  # 特征明
    16 print(li.target_names)  # 标签类别名
    17 
    18 
    19 
    20 # 注意返回值: 训练集train,x_train,y_train,测试集test,x_test,y_test
    21 # x_train为训练集的特征值,y_train为训练集的目标值,x_test为测试集的特征值,y_test为测试集的目标值
    22 # 注意,接收参数的顺序固定
    23 # 训练集占75%,测试集占25%
    24 x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
    25 print('训练集的特征值和目标值:', x_train, y_train)
    26 print('测试集的特征值和目标值:', x_test, y_test)
    27 
    28 
    29 
    30 # 获取新闻数据,all代表下载所有,训练集和测试集都下载,data_home保存的路径
    31 news = fetch_20newsgroups(data_home=os.path.curdir, subset='all')
    32 print(news.data)
    33 print(news.target)
    34 
    35 
    36 lb = load_boston()  # 回归数据
    37 print('获取特征值')
    38 print(lb.data)
    39 print('目标值')
    40 print(lb.target)
    41 print(lb.DESCR)
  • 相关阅读:
    SeaweedFS上手使用指南
    XyTalk企业即时通讯IM开始开源
    大数据项目相关技术栈(Hadoop周边技术)
    Hive SQL基础操作
    Applet Mode
    快速开始
    NetBeans启动Tomcat报“'127.0.0.1' 不是内部或外部命令”启动失败的解决办法
    运行带distance field的Hiero
    Game Loop的几种实现方式
    20150408
  • 原文地址:https://www.cnblogs.com/springionic/p/11782800.html
Copyright © 2011-2022 走看看