最近报表做的比较多,如果数据量达到了一定规模而且没超出内存范围内,可以使用Pandas来处理
import numpy as np
import pandas as pd
数据类型可以认为有两种
系列(Series),数据帧(DataFrame)
Series
索引+值 可以认为是序列
一个索引可以对应多个值
简单的list
或dict
就可以创建 Series
l1 = [i for i in range(10)]
s1 = pd.Series(l1)
s2 = pd.Series([2])
d1 = {i:i+1 for i in range(10)}
s3 = pd.Series(d1)
序列添加一个序列
默认是添加到末尾的
s0 = s1.append(s2)
#忽略索引 相当于索引重建
s1.append(s2, ignore_index=True)
#判断 索引是不是存在
'a' in data
#等同于 'a' in data.index
获取索引的对象
s0.index
s0.keys()
值获取
s0.values
遍历迭代
for i,j in s0.items():
print(i,j)
切片选择
s0[2:4]
s0[[2,3,4]]
直接换索引(位置不还)
s0.index = [5,4,3,2,1,0]
如果需要按照某个顺序重新显示
s0.reindex([1,3,5,2,0,4])
s0 + 1
s0 - s1
s0.apply(lambda x:x*4+2)