Pandas是python中运用很广泛的统计分析库,用于各种金融、工业、等等统计分析,适用于各种时间序列和面板数据等。而对应于Pandas库,最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展,因此很多高级的数据计算方法也是来源numpy。
长远目标
成为最强大、最灵活、可以支持任何语言的开源数据分析工具。
适用的数据类型
-
与 SQL 或 Excel 表类似的,含异构列的表格数据;
-
有序和无序(非固定频率)的时间序列数据;
-
带行列标签的矩阵数据,包括同构或异构型数据;
-
任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记。
Pandas 的主要数据结构是
优势
-
处理浮点与非浮点数据里的缺失数据,表示为
NaN
; -
大小可变:插入或删除 DataFrame 等多维对象的列;
-
自动、显式数据对齐:显式地将对象与一组标签对齐,也可以忽略标签,在 Series、DataFrame 计算时自动与数据对齐;
-
强大、灵活的分组(group by)功能:拆分-应用-组合数据集,聚合、转换数据;
-
把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象;
-
基于智能标签,对大型数据集进行切片、花式索引、子集分解等操作;
-
直观地合并(merge)、连接(join)数据集;
-
灵活地重塑(reshape)、透视(pivot)数据集;
-
轴支持结构化标签:一个刻度支持多个标签;
-
成熟的 IO 工具:读取文本文件(CSV 等支持分隔符的文件)、Excel 文件、数据库等来源的数据,利用超快的 HDF5 格式保存 / 加载数据;
-
时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。
其它说明
-
Pandas 速度很快。Pandas 的很多底层算法都用
数据结构
维数 | 名称 | 描述 |
---|---|---|
1 | Series | 带标签的一维同构数组 |
2 | DataFrame | 带标签的,大小可变的,二维异构表格 |