import numpy as np
import pandas as pd
数据表创建
通过外部文件导入数据表
df=pd.DataFrame(pd.read_csv('name.csv',header=1))
df=pd.DataFrame(pd.read_Excel('name.xlsx'))
通过填入数据生成数据表
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102', periods=6),
"city":['Beijing ', 'SH', ' guangzhou ', 'Shen
zhen', 'shanghai', 'BEIJING '],
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','2
10-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age',
'price'])
检查数据表的维度:shape属性
df.shape
结果输出 (6,6)
查看数据表信息
df.info()
查看数据表数据格式:dtypes属性
df.dtypes
空值检查isnull()函数(非空False,空True)
df.isnull() #对整张数据表检查
df['price'].isnull() #对price列进行检查
查看某列数据唯一值:unique()函数
df['price'].unique()
查看列名称:columns属性
查看数据表数值:values属性
查看前几行数据:head()函数
df.head()
df.head(3)
查看后几行数据:tail()函数
数据清洗
处理空值dropna()与fillna()
#删除数据表中含有空值的行
df.dropna(how='any')
#使用price均值对price列NA进行填充
df['price'].fillna(df['price'].mean())
#使用数字0填充数据表中空值
df.fillna(value=0)
清理空格
#清除price字段中的字符空格
df['price']=df['price'].map(str.strip)
大小写转换
price列大小写转换
df['price']=df['price'].str.lower()
更改数据格式:astype()函数
#更改数据格式
df['price'].astype('int')
更改列名称
#更改列名称category列更改为category-size
df.rename(columns={'category': 'category-size'})
删除列的重复值drop_duplicates()函数
#删除后出现的重复值
df['price'].drop_duplicates()
数值修改以及替换
#数据替换
df['city'].replace('sh', 'shanghai')
数据预处理
数据表合并
#数据表df和df1匹配合并
df_inner=pd.merge(df,df1,how='inner')
df_left=pd.merge(df,df1,how='left')
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer')
设置索引列
#设置索引列
df_inner.set_index('id')
排序(按索引,按数值)
#按特定列的值排序
df_inner.sort_values(by=['age'])
#按索引列排序
df_inner.sort_index()
数据分组
#如果price列的值>3000,group列显示high,否则显示low
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low
')
#对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price']
>= 4000), 'sign']=1
数据分列
#对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列
名称为category和size
pd.DataFrame((x.split('-') for x in df_inner['category']),index=d
f_inner.index,columns=['category','size'])
#将完成分列后的数据表与原df_inner数据表进行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=Tru
e)
数据提取
按标签提取(loc)
#按索引提取区域行数值
df_inner.loc[0:5]
df_inner.loc[5]
#重设索引
df_inner.reset_index()
#设置日期为索引
df_inner=df_inner.set_index('date')
#提取4日之前的所有数据
df_inner[:'2013-01-04']
按位置提取(iloc)
#使用iloc按位置区域提取数据
df_inner.iloc[:3,:2]
#iloc函数除了可以按区域提取数据,还可以按位置逐条提取,前
面方括号中的0,2,5表示数据所在行的位置,后面方括号中的数表示所
在列的位置。
#使用iloc按位置单独提取数据
df_inner.iloc[[0,2,5],[4,5]]
按标签和位置提取(ix)
#使用ix按索引标签和位置混合提取数据
df_inner.ix[:'2013-01-03',:4]
按条件提取(区域和条件值)
#判断city列的值是否为beijing
df_inner['city'].isin(['beijing'])
#先判断city列里是否包含beijing和shanghai,然后将复合条件的数据提取出来。
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]
数据筛选
按条件筛选(与、或、非)
Python中使用loc函数配合筛选条件来完成筛选功能。配 合sum和count函数还能实现Excel中sumif和countif函数的功能。
#使用“与”条件进行筛选
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender']]
#使用“或”条件筛选
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender']].sort(['age'])
#对筛选后的数据按price字段进行求和
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender','price']].sort(['age
']).price.sum()
#使用“非”条件进行筛选,并按id排序
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
'category','gender']].sort(['id'])
#对筛选后的数据按city列进行计数
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
'category','gender']].sort(['id']).city.count()
#使用query函数进行筛选
df_inner.query('city == ["beijing", "shanghai"]')
#对筛选后的结果按price进行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()
12230
数据汇总
分类汇总
使用groupby函数进行分类汇总
#对所有列进行计数汇总
df_inner.groupby('city').count()
#对两个字段进行汇总计数
df_inner.groupby(['city','size'])['id'].count()
#对city字段进行汇总并计算price的合计和均值。
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])
数据透视
数据统计
数据采样
描述统计
标准差
协方差
相关分析
数据输出
写入Excel
#输出到Excel格式
df_inner.to_Excel('Excel_to_Python.xlsx', sheet_name='bluewhale_c
c')
写入csv
#输出到CSV格式
df_inner.to_csv('Excel_to_Python.csv')