numpy 相当于序列化好的矩阵
pandas:相当于字典
0.在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame。
0.1:Series类似于numpy中的一维数组,除了通吃一维数组可用的函数或方法,而且其可通过索引标签的方式获取数据,还具有索引的自动对齐功能
0.2:DataFrame类似于numpy中的二维数组,同样可以通用numpy数组的函数和方法,而且还具有其他灵活应用,后续会介绍到。
1.创建序列 Series
创建方式(3种):
1)通过一维数组创建序列
2)通过字典的方式创建序列
3)二者区别:使用数组创建的Series,索引使用012345...;使用字典创建的Series,索引使用字典的key。
4)通过DataFrame中的某一行或某一列创建序列
2. 创建矩阵dataframe
数据框dataframe的创建方式(3种):
1)通过二维数组创建数据框
2)通过字典的方式创建数据框
以下以两种字典来创建数据框,一个是字典列表(字典里面套list),一个是嵌套字典(字典里面套字典)。
3)通过数据框的方式创建数据框(截取已有的dataframe一部分)
2.1 使用numpy创建dataframe
1 pd.DataFrame(矩阵A,index = listB, columns = listC)
——返回:创建一个dataframe格式的矩阵,
矩阵内容是:参数矩阵A
行索引名称:参数listB
列索引名称:参数listC
注:行索引index、列索引columns不给定时,输出的行列的索引都默认为0123.....
2.2 创建dataframe方式2——使用字典创建:
1 pd.DataFrame({'A':1., 'B':pd.Timestamp('20130102'), 'C': pd.Series(1, index = list(range(4)), dtype='float32'), 'D': np.array([3] * 4, dtype='int32'), 'E':pd.Categorical(["test", "train", "test", "train"]), 'F': 'foo'})
————使用字典,每一item 是 每一列的元素
3.Series/Dataframe的属性:
3.1 dataframe变量名.dtypes
——返回,每一列的数据形式
3.2 dataframe变量名.index
——返回,每一行的索引序号
3.3 dataframe变量名.columns
——返回,每一列的索引序号
3.4 dataframe变量名.values
——返回,一个有同样元素的不带有行列序号的矩阵
3.5 dataframe的统计量:
count:非空元素个数
sum:求和
mean:平均值
median:中位数
mode:众数
var:方差
std:标准差
mad:平均绝对偏差
min:最小值
quantile(0.1) :10%分位数
max:最大值
idxmin() :最小值的位置
idxmax():最大值的位置
skew:偏度
Kurt:峰度
describe:一次性输出多个描述性统计指标,必须注意的是,descirbe方法只能针对序列或数据框,一维数组是没有这个方法的
3.6 矩阵转置:
dataframe变量名.T
eg:
df1.T
3.7 排序:
3.7.1 sort_index()——根据行或者列索引序号,对矩阵进行排序
1 dataframe变量名.sort_index(axis = ...., ascending = True/False)
——参数:
axis = 0 根据行索引序号,对所有行进行排序
axis = 1 对列进行排序
ascending = True/False True:正序排列;False:倒叙排序
3.7.2 sort_value()——对某一行/列,按照元素大小进行排序
1 dataframe变量名.sort_values(by = 参数A)
——参数A:行索引/列索引序号,对哪一行/列进行排序,就输,该行/列的索引序号。