一、Pandas数据分析工具包
比numpy简单,功能强大,封装在numpy之上,更容易处理数据分析。
1.Pandas概述
这里有个疑问,read_csv返回的,是个什么数据类型的值???Dataframe类型(一个矩阵)。
DataFrame 这个矩阵的信息,可以通过info这个函数查看。
df可以取的一系列函数:
df.index
df.columns
df.dtypes
df.values
2.Pandas 基本操作
2.1自行去构造DataFrame
可以选择性的查看一个DataFrame中的特定名称的行或者列,显示的长度可以自行控制。
series:DataFrame中的一行或者一列。
describe能够对里面的一些数值型的行列进行统计,
3.Pandas索引
loc 用label去定位,iloc用position去定位数据。
df.iloc[0:5,1:3]取0到4行,1到2列,用切片的操作,选取特定行列。
bool可以用bool类型的值,去做索引,返回满足相应条件的数据。
groupby ,给定一个key有重复的数据,key是其中的列名。
可以用groupby来求和df.groupby('key').sum();
还可以取平均值,先按性别来分组,然后再对其中的Age/Survived指标求平均值。
4、Pandas数值运算
自定义构造一个DataFrame
5.对象操作
构造一个series需要传入index 和data
可以通过哪些方式找到series中的值:
(1)索引 s[0] (2)切片 s[0:2] (3)True or False (4)loc和iloc