zoukankan      html  css  js  c++  java
  • 预处理数据

    import numpy as np
    import pandas as pd
    
    #预处理数据sklearn-preprocessing
    
    #创建一组特征数据,每一行表示一个样本,每一列表示一个特征
    dataset = pd.read_csv('data.csv')
    X = dataset.iloc[ : , :-1].values  #自变量
    Y = dataset.iloc[ : , 3].values #因变量
    #矩阵向量
    #print(X)
    
    
    # 1. 标准化:去均值,方差规模化
    
    #将特征数据的分布调整成标准正太分布,高斯分布,也就是使得数据的均值维0,方差为1.
    # print("数据导入")
    # print("X")
    # print(X)
    # print("Y")
    # print(Y)
    
    
    #解析分类数据
    from sklearn.preprocessing import Imputer
    #axis=1表示对每一行去做这个操作,axis=0表示对每一列做相同的这个操作
    #标准化后的数据的均值与方差,已经变成0,1了
    imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
    imputer = imputer.fit(X[ : , 1:3])
    X[ : , 1:3] = imputer.transform(X[ : , 1:3])
    
    # print("X")
    # print(X)
    
    
    from sklearn.preprocessing import LabelEncoder, OneHotEncoder
    labelencoder_X = LabelEncoder()
    X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
    # print(X)
    #标准化 方差规模化
    onehotencoder = OneHotEncoder(categorical_features = [0])
    X = onehotencoder.fit_transform(X).toarray()
    labelencoder_Y = LabelEncoder()
    Y =  labelencoder_Y.fit_transform(Y)
    
    # print(Y)
    #拆分数据集合为测试数据和训练数据
    from sklearn.model_selection import train_test_split
    X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)
    
    
    #一个训练数据和测试数据 自变量
    from sklearn.preprocessing import StandardScaler
    sc_X = StandardScaler()
    X_train = sc_X.fit_transform(X_train)
    X_test = sc_X.transform(X_test)
    
    
    
    
  • 相关阅读:
    python中filter(),map()和reduce()的用法及区别
    Python中的单例模式的几种实现方式的及优化
    python标准库和第三方库的区别
    django和flask的区别
    wtforms
    protobuf学习
    人物FSM
    策略模式
    虚函数调用机制
    虚析构函数
  • 原文地址:https://www.cnblogs.com/mengluo/p/10305001.html
Copyright © 2011-2022 走看看