zoukankan html css js c++ java

pandas之groupby分组与pivot_table透视表

在使用pandas进行数据分析时，避免不了使用groupby来对数据进行分组运算。

groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)

by：mapping, function, str, or iterable。

用于确定groupby的组。如果by是一个函数，那么会调用对象索引的每个值。如果传递了一个dict或Series,则将使用Series或dict的值来确定组。一个str或者一个strs列表可以通过自己的列传递给group。
axis：轴，int值，默认为0
level：如果axis是一个MultiIndex（分层），则按特定的级别分组。int值，默认为None
as_index：对于聚合输出，返回带有组标签的对象作为索引。as_index=False实际上是“SQL风格”分组输出，boolean值，默认为True。
sort：排序。关闭此功能以获得更好的性能。boolean值，默认True。
group_keys：当调用apply时，添加group key来索引来识别片断。boolean值，默认True。
squeeze：尽可能减少返回类型的维度，否则返回一致的类型。boolean值，默认False。

groupby的聚合函数有：

groupby的测试数据：

https://github.com/zhang3550545/resource/blob/master/raw/groupby_test.csv

if __name__ == '__main__':
    data = pd.read_csv('groupby_test.csv')
    print(data[:10])

results = data.groupby(['区域'])['总价']

print(results)  # 输出：<pandas.core.groupby.SeriesGroupBy object at 0x0000023D2AA02EF0>

print(results.mean())

results = data.groupby(['区域'])['面积'].sum()

print(results)

results = data.groupby(data['区域'], sort=False)['区域'].count()

print(results)

results = data.groupby(['区域'])['总价', '单价', '面积'].mean()

print(results)

results = data.groupby(['区域', '版块'])['单价'].mean()

print(results)

使用pivot_table透视表实现groupby的功能

results = pd.pivot_table(data, index=['区域', '版块'], values=['单价'])

print(results)

查看全文

相关阅读:
Notepad++语言格式设置，自定义扩展名关联文件格式
 Windows使用SSH Secure Shell实现免密码登录CentOS
如何从jks文件中导出公私钥
 tomcat运行监控脚本，自动启动
 2016年统计用区划代码和城乡划分代码(截止2016年07月31日)
jquery动态出操作select
阿里负载均衡的一个坑~~~备忘
 神奇的空格
 centos安装tomcat7.0.70
驱动相关的内核函数分析