zoukankan      html  css  js  c++  java
  • Python数据分析3------数据预处理

    一、数据清洗

    这一个步骤可以和数据探索并行。

    (1)标签分类数据处理:LabelEncoder【将分类数据变成0-n的值】

    from sklearn.prepocessing import LabelEncoder
    
    enc = LabelEncoder()
    
    label_encoder = enc.fit ( y )
    #加1的意思是让标签从1开始
    y = label_encoder.transform ( y ) + 1

     

     (2)one-hot编码

    2、数据集成

    (1)概念

    数据挖掘往往分布在不同的数据源中,进行数据分析时需要将多个不同的数据源整合到同一个数据存储(如数据仓库)中。但是来自不同地方的数据需要进行实体识别与冗余属性识别,避免数据整合错误以及数据重复。

    实体识别:同名异义、异名同义、单位不统一

    冗余属性识别:数据集成往往会造成数据重复冗余。

    (2)过程:

    ①观察数据源,发现其中关系,详细查看是否同名异义或者异名同义的情况。

    ②进行数据读取与整合。

    ③去除重复数据。

    第二步:数据整合可以用numpy.concatenate((数组1,数组2))函数来整合两个数组。也可以用dataframe.concat([frame1,frame2])来整合两个dataframe。

  • 相关阅读:
    团队冲刺第四天
    团队冲刺第三天
    找1的个数
    寻找最水之王
    最优价格买书
    团队冲刺第二天
    团队冲刺第一天
    团队开发项目特点
    第一阶段冲刺站立会议报告——4
    第一阶段冲刺站立会议报告——3
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/8669583.html
Copyright © 2011-2022 走看看