series对象
1.声明series对象
没有指定标签:
指定标签:
查看组成series对象的:index和values
2.选择内部元素:
3.为元素赋值:
4.用numpy数组或其他series对象定义新series对象
5.筛选元素:
6.series对象运算和数学函数
7.seri对象的组成元素:
unique()
value_counts()
isiin()
8.NaN(非数值)
9.series用作字典
10.series对象之间的用算
DataFrame对象
1.定义DataFrame对象
2.选取元素
3.赋值
4.元素的所属关系
5.删除一列
6.筛选
7.用嵌套字典生成DataFrame对象
8.DataFrame转置
Index对象
1.index对象的方法
2.含有重复标签的Index
索引对象的其他功能
1.更换索引:reindex()
2.删除:
3.算数和数据对齐
数据结构之间的运算:
1.算数运算:
add()
sub()
div()
mul()
2.series对象和DataFrame对象之间的运算
pandas库函数:
np.sort()计算DataFrame每个对象的平方根
fame.apply(f,axis=1):f为自定义函数,axis确定操作的是行还是列
sum():计算DataFrame对象元素之和
mean():平均值
describe():计算多个统计量
索引排序:sort_index()
元素排序:
1.Serise对象使用order()函数
2. DataFrame对象:sort_index()函数,by指定哪一列,多列放在数组传给by
ranking排序:rank()函数
相关性与协方差:corr()和cov()
corrwith()可以计算Dataframe对象的的列或行与Serise对象或其他Dataframe对象元素两辆之间的相关性。
为元素赋NaN值:np.NaN
过滤NaN:1. dropna():how选项避免删除整行或整列
2. notnull()作为选取元素的条件,实现直接过滤。
为NaN元素填充其他值:fillna()
等级索引:unstack():把Serise对象转换为DataFrame对象
stack()相反
swaplevel()函数以要互相交换两个层级的的名称为参数,返回交换位置后一个的一个新对象,其中各元素的顺序保持不变
sortlevel()只根据一个层级对数据排序
level参数对层级进行统计
读取函数和写入函数:
cvs和文本文件:read_cvs(),read_table(),to_cvs()具体参数,正则解析TXT文件。
读写html文件:
read_html()
to_html()
读写Excel文件:
to_excel()
read_excel()
json文件:
read_json()
to_json()
json_normalize()
pandas实现对象序列化
pandas对接数据库