zoukankan      html  css  js  c++  java
  • 机器学习笔记(四)--sklearn数据集

    sklearn数据集

     (一)机器学习的一般数据集会划分为两个部分

    训练数据:用于训练,构建模型。

    测试数据:在模型检验时使用,用于评估模型是否有效。

    划分数据的API:sklearn.model_selection.train_test_split

    示例代码如下:

    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    
    
    # 使用加载器读取数据并存入变量iris
    iris = load_iris()
    # 查验数据规模
    print(iris.data.shape)
    # 用于输入的数据
    #print(iris.data)
    # 标签
    #print(iris.target)
    # 对数据进行随机分割 测试数据占总数据的30% 训练数据占总数据的70%
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=30)
    print('训练特征值:')
    print(x_train)
    print('训练目标值:')
    print(y_train)
    print('测试特征值:')
    print(x_test)
    print('测试目标值:')
    print(y_test)

    (二)转换器

    fit_transform等价于  fit+transform

    fit_transform()函数输入数据直接转换。

    fit()函数输入数据,但不做事。计算平均值,方差等

    transform()函数进行数据的转换。

    (三)估计器

    在sklearn中,估计器(estimator)是一类实现了算法的API。

    1.用于分类的估计器:

    sklearn.neighbors    k-近邻算法

    sklearn.naive_bayes   贝叶斯

    sklearn.linear_model.LogisticRegression  逻辑回归

    sklearn.tree   决策树与随机森林

    2.用于回归的估计器

    sklearn.linear_model.LinearRegression   线性回归

    sklearn.linear_model.Ridge   岭回归

  • 相关阅读:
    java 单例设计模式
    JAVAWEB监听器(二)
    pxe无人值守安装linux机器笔记----摘抄
    Ganglia3.1.7安装与配置(收录)
    Hadoop Sentry 学习
    安装和配置Sentry(收录)
    sqoop 的使用 -20160410
    深度分析如何在Hadoop中控制Map的数量(摘抄)
    CDH,CM下载
    大数据培训班 cloudera公司讲师面对面授课 CCDH CCAH CCP
  • 原文地址:https://www.cnblogs.com/doctorXiong/p/10588809.html
Copyright © 2011-2022 走看看