Pandas简介
背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观。它旨在成为在Python中进行实际,真实世界数据分析的基础高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大,最灵活的开源数据分析/操作工具。它已朝着这个目标迈进
-
pandas组成 = 数据面板+数据分析工具
-
pandas把数据分为3类
-
一位矩阵:Series 强大在可以存储任意类型数据 二维矩阵: DataFrame 三维矩阵; Panel
-
pandas数据结构
-
Series:一维数组。类型Numpy的一维数组,强大在可以存储任意类型数据
-
Time-Series:以时间维索引的Series
-
DataFrame: 二位的表格数据结构,===升级版矩阵
-
它含有一组有序的列,每列可以是不同的值类型(数值,字符串,)
-
pandas的数据类型
-
导入pandas
import pandas as pd
-
读取csv文件,数据类型就是DataFrame二维矩阵
a = pd.read_csv(path)
type(a) -
属性和方法
-
类型 type(a)
-
维度 a.ndim
-
形状 a.shape
-
大小 a.size
-
数据类型 a.dtypes
-
帮助 help(pd)
-
索引操作
-
前n行:head(n)
-
后n行:tail(n)
-
第n行: df.loc[n]
-
第3-7行: df.loc[2:8]
-
取任意行: df.loc[[2,3,5]]
-
取某列: df['列名'] df.列名
-
取任意列:df[['列1',‘列2’,。。。]]
案例 取出所有g为结尾的列
a = df.columns.tolist()
bb = []
for x in a:
if x.endswith('(g)') or x.endswith('(mg)'):
bb.append(x)
df[bb]
简单统计
数据统计
-
摘要描述/简介:df.describe()
-
一维。value_counts()统计以为矩阵中数组出现的次数: 比如统计成绩
-
最大: df['列名'].max()
-
最小 :min
-
平均值:mean
-
标准差 std
案例分析2成绩分析
# 案例-成绩分析
chengji = pd.read_excel('score.xlsx')
chengji['成绩'].describe()
chengji['成绩'].value_counts()
a = chengji['成绩']
a[a<80]