python数据预处理和特性选择后列的映射

zoukankan html css js c++ java

python数据预处理和特性选择后列的映射
我们在用python进行机器学习建模时，首先需要对数据进行预处理然后进行特征工程，在这些过程中，数据的格式可能会发生变化，前几天我遇到过的问题就是：

对数据进行标准化、归一化、方差过滤的时候数据都从DataFrame格式变为了array格式。

这样数据的列名就会消失，且进行特征选择之后列的数量也会发生改变，因此需要重新对列进行映射，为其加上列名并转化为DataFrame的格式。一般情况下可以分为三种情况：

1、对数据进行缺失值填补、编码（处理分类型变量）、二值化（处理连续型变量）一般都是按照列对数据进行处理，因此处理完之后，直接覆盖原数据即可。　　　　
data.loc[:,"Age"]= SimpleImputer(strategy="median").fit_transform(data.loc[:,"Age"].values.reshape(-1,1))
2、对数据进行标准化、归一化都是对整个特征矩阵进行处理，数据类型变为array，但是数据的列并没有发生任何改变。直接将原始的列名重新映射至处理好的数据上。
X_train1 = min_max_scaler.fit_transform(X_train) X_train1=pd.DataFrame(X_train1) X_train1.columns = X_train.columns
3、在所有特征选择方法，方差，SelectKBest+各种统计量（卡方过滤、F检验、互信息法），嵌入法和包装法，都有接口get_support，该接口有参数indices，get_support(indices=False)，参数为false的时候可以用来确定原特征矩阵中有哪些特征被选择出来，返回布尔值True或者False，如果设定indices=True，就可以确定被选择出来的特征在原特征矩阵中所在的位置的索引。
X_train_columns = X_train.columns

selector = VarianceThreshold(0.005071) X_fsvar = selector.fit_transform(X_train)
X_fsvar.columns = X_train_columns[selector.get_support(indices=True)]
查看全文

相关阅读:
并行和并发
 怎样用第三方开源免费软件portecle从https站点上导出SSL的CA证书?
我持续推动Rust语言支持Windows XP系统
 Android——4.2.2 文件系统文件夹分析
 hadoop(八)
自己定义html中a标签的title提示tooltip
多个返回顶部的代码
 同学们,OpenCV出3.0了,速去围观!
hdu1002
好记性不如烂笔头（一）

原文地址：https://www.cnblogs.com/simpleDi/p/10123322.html