zoukankan      html  css  js  c++  java
  • Python数据分析 Pandas模块 基础数据结构与简介(二)

    重点方法

    • 分组:groupby('列名') groupby(['列1'],['列2'........])

    分组步骤:

    1. (spiltting)拆分 按照一些规则将数据分为不同的组

    2. (Applying)申请 对于每组数据分别执行一个函数

    3. (Combining) 组合 将结果组合到一个数据结构

    • 分组后默认统计的方法

      1.size() 大小 = count() max(),min(),std(),median()中位数,first(),last()

      函数名使用
      count 分组中非NA(空值)的数量
      sum 非NA的和
      mean 非NA的平均值
      median 非NA的值的算术中位数
      std;var 无偏(分母为n-1)标准差和方差
      prod 非NA值的积
      first;last 第一个和最后一个非NA的值

    以上统计函数:除了count()外,都会自动过滤非数字列!!!

    排重:duplicated() 重复

    1.检查重复数据:df.duplicated() 判断整行数据

    2.检查重复指定列名:df.duplicated(['列1','列2....'])

    3.删除重复数据:df.drop_duplicates()

    4.删除时指定保留的数据:df.drop_duplicates(['列1','列2'...],keep='first/last')

    • keep:保存

    • first:第一个

    • last:最后一个

    数据透视表

    • df.pivot_table(df,index=['列1','列2...'],values='名',aggfunc=np.mean/sum)

      • index : 排序的列

      • values: 统计列

      • aggfunc :执行的统计函数,不写默认统计平均值

    分组替换:categories 分组/分类

    • 实现第二列!分组,并替换数据!

    • df['新列名']=df['B'].astype('category'): 转换为分类/分组类型

    • 分配列名:df['新列名'].cat.categories(['值1','值2....'])

    • 重新设置:df['新列名']=df['新列名'].cat.set_categories(['值1','值2.....'])

     

    读写文件

    • HDF5:存储大数据,可方便和其他语言对接, 了解

      • to_hdf(文件)

      • read_hdf(文件)

    • csv:

      • to_csv(文件)

      • read_csv(文件)

    • 表格 excel:

      • to_excel(文件)

      • read_excel(文件)

  • 相关阅读:
    CSS不常见问题汇总
    Android 学习 查询数据库
    c#判断QQ是否在线
    Log图文详解(Log.v,Log.d,Log.i,Log.w,Log.e)的用法
    android之uses-permission
    Android特效 五种Toast详解
    Android用Intent启动Activity的方法
    View的setOnClickListener的添加方法
    Handler
    在Android中使用 Google ZXing 实现二维码、条形码扫描
  • 原文地址:https://www.cnblogs.com/fhj-0519/p/10133439.html
Copyright © 2011-2022 走看看