zoukankan      html  css  js  c++  java
  • python数据预处理和特性选择后列的映射

    我们在用python进行机器学习建模时,首先需要对数据进行预处理然后进行特征工程,在这些过程中,数据的格式可能会发生变化,前几天我遇到过的问题就是:

    对数据进行标准化、归一化、方差过滤的时候数据都从DataFrame格式变为了array格式

    这样数据的列名就会消失,且进行特征选择之后列的数量也会发生改变,因此需要重新对列进行映射,为其加上列名并转化为DataFrame的格式。一般情况下可以分为三种情况:

    1、对数据进行缺失值填补、编码(处理分类型变量)、二值化(处理连续型变量)一般都是按照列对数据进行处理,因此处理完之后,直接覆盖原数据即可。    

    data.loc[:,"Age"]= SimpleImputer(strategy="median").fit_transform(data.loc[:,"Age"].values.reshape(-1,1))

    2、对数据进行标准化、归一化都是对整个特征矩阵进行处理,数据类型变为array,但是数据的列并没有发生任何改变。直接将原始的列名重新映射至处理好的数据上。

    X_train1 = min_max_scaler.fit_transform(X_train)  
    X_train1=pd.DataFrame(X_train1)
    X_train1.columns = X_train.columns

    3、在所有特征选择方法,方差,SelectKBest+各种统计量(卡方过滤、F检验、互信息法),嵌入法和包装法,都有接口get_support,该接口有参数indices,get_support(indices=False),参数为false的时候可以用来确定原特征矩阵中有哪些特征被选择出来,返回布尔值True或者False,如果设定indices=True,就可以确定被选择出来的特征在原特征矩阵中所在的位置的索引。

    X_train_columns = X_train.columns
    selector = VarianceThreshold(0.005071)
    X_fsvar = selector.fit_transform(X_train)
    X_fsvar.columns = X_train_columns[selector.get_support(indices=True)]
  • 相关阅读:
    javascript进阶一
    javascript基础
    前端开发工程师——网易云课堂
    win10,软件, 发布者不受信任怎么办
    oracle10g如何配置客户端
    ASPxGridView中DetailRow的使用
    vb中&和+的区别
    nvl
    substr
    ORA-01791: 不是 SELECTed 表达式
  • 原文地址:https://www.cnblogs.com/simpleDi/p/10123322.html
Copyright © 2011-2022 走看看