zoukankan      html  css  js  c++  java
  • 2.sklearn库中的标准数据集与基本功能

    sklearn库中的标准数据集与基本功能

    下面我们详细介绍几个有代表性的数据集:

    当然同学们也可以用sklearn机器学习函数来挖掘这些数据,看看可不可以捕捉到一些有趣的想象或者是发现:

    波士顿房价数据集:

    波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿房价数据集能够应用到回归问题上。

    这里是波士顿房价数据集的部分房价数据信息展示:例如:NOX这个属性代表一氧化氮的浓度,RM这个属性代表的是住宅的平均房间数;

    我们可以通过使用sklearn.datasets.load_boston即可加载相关的数据集;
      重要参数:
        1.return_X_y:表示是否返回target(即价格),默认为False,只返回data(即属性)。

               这里我们提供两个实例:

               示例1:

               示例1展示了如何import load_boston这个数据集;通过打印boston.data.shape我们可以看到维度是:506,13

               示例2:当return_X_y设置为True的时候:load_boston同时返回data和target

                

    鸢尾花数据集:

    鸢尾花数据集是数据挖掘任务常用的一个数据集;鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。

    测量数据包括:萼片长度、萼片宽度、花瓣长度、花瓣宽度。
    类别共分为三类:Iris Setosa,Iris Versicolour,Iris Virginica。该数据集可用于多分类问题。

                              

    使用sklearn.datasets.load_iris即可加载相关数据集
    参数:
    1.return_X_y:若为True,则以(data,target)形式返回数据,默认为False,表示以字典形式返回数据全部信息(包含data和target)

    鸢尾花数据集--加载示例:

    手写数字数据集

    手写数字数据集包括:1797个0-9的手写数字数据,每个数字由8*8大小的矩阵构成,矩阵中值的范围是0-16,代表颜色的深度。

    使用sklearn.datasets.load_digits即可加载相关的数据集;

    参数:
      return_X_y:若为True,则以(data,target)形式返回数据;默认为False,表示以字典形式返回数据全部信息(包含data和target)
          n_class:表示返回数据的类别数,如:n_class=5,则返回0到4的数据样本。

    示例:

    先加载数据集digits,然后通过打印digits.data.shape可以打印这个数据集的维度,加载matplotlib库,通过使用matshow()函数和show()函数以图像的形式展示:

    sklearn库的基本功能

    sklearn库共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。

    我们这里主要介绍前4部分内容:

    1.对于分类任务,我们这里列出了分类模型和它的调用方法;对于支持向量机这个分类算法而言,我们需要调用svm.SVC这个模块

    2.回归任务:回归模型和它的调用方法

    3.聚类任务:下面是聚类任务会设计到的聚类模型和调用方法

    4.降维任务:降维任务所涉及到的一些方法和需要加载的模块;

    在今后的学习中,我们会以实例来具体对这些算法的使用方式来进行介绍!

  • 相关阅读:
    边缘检测算法——Canny和LoG边缘检测算法
    Java读书笔记03 输入输出
    CMake入门
    二叉树及二叉树的遍历
    Java读书笔记11 图形程序——颜色 字体 图像
    XNA实现骨骼动画 归纳总结
    Java读书笔记09 内部类
    Java读书笔记02 基础知识
    Java用户界面 模型视图控制器(MVC)模式
    简单理解传值和传引用
  • 原文地址:https://www.cnblogs.com/python-machine/p/6940578.html
Copyright © 2011-2022 走看看