zoukankan      html  css  js  c++  java
  • 数据分析-pandas

    数据分析库pandas之Series,Dataframe: replace函数及map函数,

    Dataframe库使用replace函数(且不支持method和limit参数),且map不是Dataframe的方法,其实是Series的方法。

    duplicated :得到重复的行索引(布尔值)、keep参数(是否保留):‘first‘,'last',False、inplace:是否替换

    drop_duplicated():删除重复的行索引

    drop():删除具体的行索引

    rename:index行索引、columns列索引,level参数

    df.all():得到行的布尔值。用于清洗不满足的数据

    df.std():求标准差。

    数据分析最后一步:聚合操作

      groupby返回根据某一列或多列进行分组;

      groups返回查看分组后的属性。

      在许多情况下,我们将数据分成几组,并在每个子集上应用一些功能。在应用中,我们可以执行以下操作:

    • Aggregation :计算一些摘要统计
      grouped = df.groupby('Year')
      print(grouped['Points'].agg(np.mean))
    • Transformation :执行一些特定组的操作
      grouped = df.groupby('Team')
      score = lambda x: (x - x.mean()) / x.std()*10
      print(grouped.transform(score))
    • Filtration:根据某些条件下丢弃数据 比如
      df.groupby('Team').filter(lambda x: len(x) >= 3)
  • 相关阅读:
    Python基础篇 -- 列表
    Python基础篇 -- 字符串
    Python基础篇 -- if while 语句
    Python基础篇 -- 运算符和编码
    Python 入门基础
    Docker知识收藏
    秒表
    Emac
    Android开发
    shell 小工具
  • 原文地址:https://www.cnblogs.com/zhuyafeng/p/11696007.html
Copyright © 2011-2022 走看看