一、pandas核心数据结构:Series
理解:Series可以理解为一个一维的数组,只是index可以自己改动。类似于定长的有序字典,有Index和value。
创建的方法统一为:pd.Series(data,index=)
1)打印的时候按照index赋值的顺序
2)index参数默认从0开始的整数,也是Series的绝对位置,即使index被赋值之后,绝对位置不会被覆盖,index赋值必须是list类型。
Series可以通过以下形式创建:python的dict、umpy当中的ndarray(numpy中的基本数据结构)、具体某个数值。
代码:
import pandas as pd # 创建一组Series数据 print(("---------------案例1--------------")) # 书写格式1: 列表格式 s1 = pd.Series([90,86,70],index=["Leo","Kate","John"]) print(s1) # 书写格式2:字典格式 dict={"leo":90,"kate":86,"john":70} s2 = pd.Series(dict) print("s2="," ",s2) print(("--------------案例2--------------")) s3=pd.Series([3,-5,7,4],index=list('ABCD')) print("s3="," ",s3)
结果图:
二、pandas核心数据结构:DataFrame
理解:DataFrame是一个类似于表格的数据类型,DataFrame可以理解为一个二维数组,index有两个维度,可更改。
DataFrame参数:
data (方框内的数据) :numpy ndarray、dict、 DataFrame
index(行索引索引) :Index or array-like
columns (列索引) :Index or array-like
dtype(data的数据类型) :dtype, 默认为 None
DataFrame统一的创建形式为:pd.DataFrame(data,columns=,index=)
其中columns为列的索引,index为行的索引。
index或者columns如果不进行设置则默认为0开始的整数。
代码:
import pandas as pd print("---------案例1:--------------") # 创建DataFrame,列名是:'name'、'gender'、'age' df = pd.DataFrame([['Snow','M',22], ['Tyrion','M',32], ['Sansa','F',18], ['Arya','F',14]], columns=['name','gender','age']) print(df) print("---------案例2:--------------") # DataFrame创建,列名是:'Country'、'Capital'、'Population' data=[['Belglum','Brussels',11190846], ['Indla','New Delhi',1303171035], ['Brazil','Brasilia',207847528]] # index如果不写,默认从0开始序列,下面设置了从1开始序列 df1=pd.DataFrame(data=data,index=[1,2,3],columns=['Country','Capital','Population']) print(df1)
结果图: