zoukankan      html  css  js  c++  java
  • 5 数据聚合与数据透视

    5 数据聚合与数据透视

     ① 数据聚合

    一.定义

    通过不同变量对大型数据帧进行分组,以及对每个组应用汇总函数的任务。这时需在pandas中使用DataFrame对象的groupby函数和 agg函数完成。

     二.导入实验数据集

     三.数据集字段释义

    phone.csv数据集包含830个记录共7个字段,以下对各字段进行简单解释

    index:数据集索引;

    date:输入的日期和时间;

    duration:每个呼叫的持续时间(以秒为单位),每个数据条目的数据量(以 MB 为单位),以及每个 sms 条目发送的文本数(通常为 1);

    item:事件发生的描述——可以是呼叫,短信或者数据之一;

    month:每个条目所属的结算月份——形式为 “YYYY-MM”;

    network:为每个条目调用 / 发送的移动网络;

    network_type:被呼叫的号码是移动,国际,语音邮件,固定电话还是其他特殊号码。

    预处理date字段

     四.简单聚合DataFrame

     五.groupby

    groupby函数将返回groupby对象,但实际上描述了如何拆分原始数据集的行。groupby对象groups变量是一个字典,其键(keys)是计算的唯一组,对应的值是属于每个组的轴标签。

    1.聚合DataFrame中的组

     2.具体示例

    max(),min(),mean(),first(),last()等函数,可以快速应用于groupby对象,以获取每个组的汇总统计信息。groupby是一个非常有用的函数,可以从每个摘要中查看不同的变量。

     

     

     3.注意要点

     

     六.agg

    agg函数提供的聚合功能允许在一次计算中按组计算多个统计数据。语法很简单,聚合指令以字典或列表的形式提供。

    1.将单个函数应用于组中的列

     

    2.将多个函数应用于组中的列

     ② 数据透视

    一.定义

    大多数人可能都有使用Excel中的数据透视表的经验。pandas提供了一个类似的功能,称为pivot_table。

    二.导入实验数据集

    三.数据透视

     1.单索引

     2.多索引

     3.values字段显示定义我们关系的列

     4.aggfunc可进行数据运算

     

     

     

     5.columns变量可以定义一个或多个列

     6.margins = True可以查看汇总数据

     7.高级数据透视表过滤

    作者:华王 博客:https://www.cnblogs.com/huahuawang/
  • 相关阅读:
    过用户层HOOK思路
    Linux LVM实践
    matlab演奏卡农 Cripple Pachebel's Canon on Matlab
    rman备份恢复总结
    郁金香VC外挂教程(全) 翻录版 免Key(精品教程)
    C# string 中的 @ 作用处理\等字符
    (抓)2分法通用存储过程分页(top max模式)版本(性能相对之前的not in版本极大提高)
    怎样应用OracleParameter怎样写like查询语句?
    (转)DirectoryEntry的使用
    解决模式对话框和window.open打开新页面Session会丢失问题
  • 原文地址:https://www.cnblogs.com/huahuawang/p/14932503.html
Copyright © 2011-2022 走看看