zoukankan      html  css  js  c++  java
  • Python数据分析3------数据预处理

    一、数据清洗

    这一个步骤可以和数据探索并行。

    (1)标签分类数据处理:LabelEncoder【将分类数据变成0-n的值】

    from sklearn.prepocessing import LabelEncoder
    
    enc = LabelEncoder()
    
    label_encoder = enc.fit ( y )
    #加1的意思是让标签从1开始
    y = label_encoder.transform ( y ) + 1

     

     (2)one-hot编码

    2、数据集成

    (1)概念

    数据挖掘往往分布在不同的数据源中,进行数据分析时需要将多个不同的数据源整合到同一个数据存储(如数据仓库)中。但是来自不同地方的数据需要进行实体识别与冗余属性识别,避免数据整合错误以及数据重复。

    实体识别:同名异义、异名同义、单位不统一

    冗余属性识别:数据集成往往会造成数据重复冗余。

    (2)过程:

    ①观察数据源,发现其中关系,详细查看是否同名异义或者异名同义的情况。

    ②进行数据读取与整合。

    ③去除重复数据。

    第二步:数据整合可以用numpy.concatenate((数组1,数组2))函数来整合两个数组。也可以用dataframe.concat([frame1,frame2])来整合两个dataframe。

  • 相关阅读:
    BZOJ2809: [Apio2012]dispatching
    BZOJ1455: 罗马游戏
    可并堆试水--BZOJ1367: [Baltic2004]sequence
    可并堆模板
    Codeforces870F. Paths
    Codeforces913F. Strongly Connected Tournament
    一练Splay之维修数列第一次
    Codeforces913E. Logical Expression
    Codeforces700C. Break Up
    可持久化KMP
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/8669583.html
Copyright © 2011-2022 走看看