zoukankan      html  css  js  c++  java
  • 数据处理pandas

    1、缺失值时间戳不为NaN,为NaT, 同样判断都为isna()或notna()方法
    2、删值去重

    df.dropna()
    df.drop_duplicates()

    3、上下值插值

    df.fillna(method='pad') # 插取上面的值 可带参数limit = 
    df.fillna(method='bfill') # 插取下面的值 同时可有limit参数表示插几个值
    df.fillna(pd.mean()[[]]) # 插平均值,后面可接插的列数
    df.interpolate() # 线性插值

    插值借助于函数实现,已知数据去求解位置数据的值,插值在数据分析领域非常常见,好处是可以尽量还原数据本身的样子 线性插值的方法interpolate(),默认的线性插值的好处,在 原数据采用平均值或者上下值效果不是很好时(数值型变量存在连续型缺失值),可以尝试此方法。
    插值情形:

    Scipy
    - 数据增长速率越来越快,可以选择 `method='quadratic'`二次插值。 - 数据集呈现出累计分布的样子,推荐选择 `method='pchip'`。 - 需要填补缺省值,以平滑绘图为目标,推荐选择 `method='akima'`。

    4、Series

    加法 add

    减法 sub 

    乘法 mul

    除法 div

    5、DataFrame

    创建时间区间 date_range()  : 比如pd.date_range('today', periods=6)

    1) 创建方式,数组array

    2) 字典方式

    6、其他:

    1)列数据查询,查询多列时,需要双括号[[]],df[['列名1','列名2']],

    2)排序sort_values(by = '')

    3)修改值df.iat[,] ,df.loc['',''] 均会直接修改df

    4) 大小写转换df.str.lower() ,  相反用upper()

    ...

     



  • 相关阅读:
    努力 加油
    大总结(全文手打)加深记忆 表单 注册页面的第一次制作 小白一只多多包含
    购物栏
    三级轮播
    图片轮播
    啊!!苦等,博客终于通过了!!
    SQL升级Oracle挖的Null坑,你懂的!
    关于master..xp_cmdshell’的几个错误_解决办法(转)
    班级博客
    图片系统架构思考之一:删除图片--不容忽视
  • 原文地址:https://www.cnblogs.com/hqczsh/p/11599743.html
Copyright © 2011-2022 走看看