zoukankan      html  css  js  c++  java
  • 特征工程入门与实践—3 特征增强

    第3章 特征增强:清洗数据

    主要内容:

      识别数据中的缺失值;

      删除有害数据;

      输入(填充)缺失值;

      对数据进行归一化/标准化;

      构建新特征;

      手动或自动选择(移除)特征;

      使用数学矩阵计算将数据集转换到不同的维度。

    3.1 识别数据中的缺失值

    查看数据集中是否有数据点是空的,用pandas dataframe内置的isnull()方法:

      dataname.isnull().sum()  统计缺失值的数量

    3.2处理数据集中的缺失值

    主要的两种处理方法:

      删除缺少值的行  dataname.dropna()

      填充缺失值  dataname['列名'].fillna(['列名'].mean(),inplace = True)   也可以用sklearn预处理类的Imputer模块(填充器)进行缺失值填充

    数据集的每列均值: dataname.mean()   某列的均值 datanamme['列名'].mean()

  • 相关阅读:
    CentOS_关机与重启命令详解
    去除ArrayList重复的对象
    单项设计模式
    死循环的应用
    java学习心得-面向对象与面向过程
    计算机使用个人经验及日常维护
    linux操作系统简介
    集合
    项目学习4
    周末总结
  • 原文地址:https://www.cnblogs.com/spp666/p/12668089.html
Copyright © 2011-2022 走看看