zoukankan      html  css  js  c++  java
  • 数据预处理 总结

    1. 离散化

      a) 无序变量离散化—— OneHotEncoder

      b)有序变量离散化

        等宽划分:按照相同宽度将数据分成几等份。缺点是受到异常值的影响比较大。 pandas.cut方法可以进行等宽划分。

        等频划分:将数据分成几等份,每等份数据里面的个数是一样的。pandas.qcut方法可以进行等频划分。

        聚类划分:使用聚类算法将数据聚成几类,每一个类为一个划分。

      内容来自 https://www.cnblogs.com/jiaxin359/p/8574510.html

     内容来自 https://www.cnblogs.com/xingnie/p/12264505.html

    2. 缺失值处理

      # 考虑全空才删,还是空一个就删

      df.dropna(how = ,axis = )

      # 用什么(平均值)填充空值

      df.fillna()

    df['Exterior_Color'].fillna(method='ffill') #前向填补
    df['Exterior_Color'].fillna(method='bfill') #后向填补
    df.Mileage.fillna(df.Mileage.mean()) # 年龄这里列 用均值填补
    df.Mileage.fillna(df.Mileage.median()) #中位数填补

    3. 重复值处理

      df.xxx.drop_duplicates()

    4. 异常值处理

      

    # 剔除户主姓名,户主身份证号和年龄有缺失的样本
    df.dropna(axis = 0,how='any',subset=['户主姓名','户主身份证号','age'],inplace = True) #1代表列,0代表行,只要有缺失,就删除这一行,基于三个变量
     

     https://blog.csdn.net/lyxleft/article/details/84325697#%E8%81%9A%E9%9B%86

    5.聚集

    6.抽样

    7.降维

    8.特征子集

    9..特征创建

    10。变量变换

  • 相关阅读:
    关于postman返回参数
    字典(dict)
    序列(tuple)
    列表(List)
    字符串截取
    条件及循环语句
    函数
    变量和类型
    post请求
    django学习-5.获取url参数和name的作用
  • 原文地址:https://www.cnblogs.com/ChevisZhang/p/13471527.html
Copyright © 2011-2022 走看看