pandas简介
pandas全称python Data Analysis Library,是基于numpy的一种工具,pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具。
pandas最初由AQR Captal Management于2008年4月开发,并于2009年地开源出来,最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。
pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使python成为强大而高效的数据分析环境的重要因素之一。pandas库是统计科学家在分析数据时的理想工具,非常适合应用于数据清洗,分析/建模。
适用数据集
pandas适合处理多种类型的数据:①具有不同数据类型序列的表格数据,如SQL表或Excel电子表格;②有序或无序(不固定频率)的时间序列数据;③带有行和列标签的任意矩阵数据;④任何其他形式的观测/统计数据集。
pandas的优势
①可以轻易的处理浮点及非浮点数据类型的缺失值(NaN);
②大小可变:DAtaFrame和Panel都可以删除或插入列;
③数据自动对齐;灵活强大的分组功能,可对数据集进行拆分组合操作
④将其他的python和numpy数据结构中不同类索引的数据转换为DataFrame对象
⑤基于智能标签的切片,花式索引,轻易从大数据集中取出子集;
⑥直观的合并,连接数据集;
⑦轻易的重新定义数据集形状和转置;
⑧轴(axes)的分层标签(是每个元组有多个标签成为可能),然后将分析结果组织成适合于绘图或表格显示的形式的全部过程。
pandas的数据结构
①Series 一维
②DataFrame 二维
③Panel 三维
pandas的调库
import pandas as pd
pd.Series() #创建一个空系列
pd.DataFrame() #创建一个空的数据帧