zoukankan      html  css  js  c++  java
  • 使用python完成对excel的操作

    import numpy as np
    import pandas as pd
    

    数据表创建

    通过外部文件导入数据表

    df=pd.DataFrame(pd.read_csv('name.csv',header=1))
    df=pd.DataFrame(pd.read_Excel('name.xlsx'))
    

    通过填入数据生成数据表

    df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
     "date":pd.date_range('20130102', periods=6),
     "city":['Beijing ', 'SH', ' guangzhou ', 'Shen
    zhen', 'shanghai', 'BEIJING '],
     "age":[23,44,54,32,34,32],
     "category":['100-A','100-B','110-A','110-C','2
    10-A','130-F'],
     "price":[1200,np.nan,2133,5433,np.nan,4432]},
     columns =['id','date','city','category','age',
    'price'])
    

    检查数据表的维度:shape属性

    df.shape
    

    结果输出 (6,6)

    查看数据表信息

    df.info()
    

    查看数据表数据格式:dtypes属性

    df.dtypes
    

    空值检查isnull()函数(非空False,空True)

    df.isnull() #对整张数据表检查
    df['price'].isnull() #对price列进行检查
    

    查看某列数据唯一值:unique()函数

    df['price'].unique()
    

    查看列名称:columns属性

    查看数据表数值:values属性

    df.head()
    df.head(3)
    

    查看后几行数据:tail()函数

    数据清洗

    处理空值dropna()与fillna()

    #删除数据表中含有空值的行
    df.dropna(how='any')
    
    #使用price均值对price列NA进行填充
    df['price'].fillna(df['price'].mean())
    
    #使用数字0填充数据表中空值
    df.fillna(value=0)
    

    清理空格

    #清除price字段中的字符空格
    df['price']=df['price'].map(str.strip)
    

    大小写转换

    price列大小写转换
    df['price']=df['price'].str.lower()
    

    更改数据格式:astype()函数

    #更改数据格式
    df['price'].astype('int')
    

    更改列名称

    #更改列名称category列更改为category-size
    df.rename(columns={'category': 'category-size'})
    

    删除列的重复值drop_duplicates()函数

    #删除后出现的重复值
    df['price'].drop_duplicates()
    

    数值修改以及替换

    #数据替换
    df['city'].replace('sh', 'shanghai')
    

    数据预处理

    数据表合并

    #数据表df和df1匹配合并
    df_inner=pd.merge(df,df1,how='inner')
    df_left=pd.merge(df,df1,how='left')
    df_right=pd.merge(df,df1,how='right')
    df_outer=pd.merge(df,df1,how='outer')
    

    设置索引列

    #设置索引列
    df_inner.set_index('id')
    

    排序(按索引,按数值)

    #按特定列的值排序
    df_inner.sort_values(by=['age'])
    #按索引列排序
    df_inner.sort_index()
    

    数据分组

    #如果price列的值>3000,group列显示high,否则显示low
    df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low
    ')
    
    #对复合多个条件的数据进行分组标记
    df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price']
     >= 4000), 'sign']=1
    

    数据分列

    #对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列
    名称为category和size
    pd.DataFrame((x.split('-') for x in df_inner['category']),index=d
    f_inner.index,columns=['category','size'])
    
    #将完成分列后的数据表与原df_inner数据表进行匹配
    df_inner=pd.merge(df_inner,split,right_index=True, left_index=Tru
    e)
    

    数据提取

    按标签提取(loc)

    #按索引提取区域行数值
    df_inner.loc[0:5]
    df_inner.loc[5]
    
    #重设索引
    df_inner.reset_index()
    #设置日期为索引
    df_inner=df_inner.set_index('date')
    
    #提取4日之前的所有数据
    df_inner[:'2013-01-04']
    

    按位置提取(iloc)

    #使用iloc按位置区域提取数据
    df_inner.iloc[:3,:2]
    #iloc函数除了可以按区域提取数据,还可以按位置逐条提取,前
    面方括号中的0,2,5表示数据所在行的位置,后面方括号中的数表示所
    在列的位置。
    #使用iloc按位置单独提取数据
    df_inner.iloc[[0,2,5],[4,5]]
    

    按标签和位置提取(ix)

    #使用ix按索引标签和位置混合提取数据
    df_inner.ix[:'2013-01-03',:4]
    

    按条件提取(区域和条件值)

    #判断city列的值是否为beijing
    df_inner['city'].isin(['beijing'])
    
    #先判断city列里是否包含beijing和shanghai,然后将复合条件的数据提取出来。
    df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]
    

    数据筛选

    按条件筛选(与、或、非)

    Python中使用loc函数配合筛选条件来完成筛选功能。配 合sum和count函数还能实现Excel中sumif和countif函数的功能。

    #使用“与”条件进行筛选
    df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beiji
    ng'), ['id','city','age','category','gender']]
    
    #使用“或”条件筛选
    df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
    ng'), ['id','city','age','category','gender']].sort(['age'])
    
    #对筛选后的数据按price字段进行求和
    df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
    ng'), ['id','city','age','category','gender','price']].sort(['age
    ']).price.sum()
    
    #使用“非”条件进行筛选,并按id排序
    df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
    'category','gender']].sort(['id'])
    
    #对筛选后的数据按city列进行计数
    df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
    'category','gender']].sort(['id']).city.count()
    
    #使用query函数进行筛选
    df_inner.query('city == ["beijing", "shanghai"]')
    
    #对筛选后的结果按price进行求和
    df_inner.query('city == ["beijing", "shanghai"]').price.sum()
    12230
    

    数据汇总

    分类汇总

    使用groupby函数进行分类汇总

    #对所有列进行计数汇总
    df_inner.groupby('city').count()
    
    #对两个字段进行汇总计数
    df_inner.groupby(['city','size'])['id'].count()
    
    #对city字段进行汇总并计算price的合计和均值。
    df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])
    

    数据透视

    数据统计

    数据采样

    描述统计

    标准差

    协方差

    相关分析

    数据输出

    写入Excel

    #输出到Excel格式
    df_inner.to_Excel('Excel_to_Python.xlsx', sheet_name='bluewhale_c
    c')
    

    写入csv

    #输出到CSV格式
    df_inner.to_csv('Excel_to_Python.csv')
    
    
  • 相关阅读:
    NOIP前的一些计划
    回文自动机[学习笔记]
    Luogu-3705 [SDOI2017]新生舞会
    01分数规划[学习笔记]
    jvm参数总结
    读懂jstack
    PRODUCER配置加载
    为什么WAIT必须在同步块中
    NIO学习笔记
    dp求最长递增子序列并输出
  • 原文地址:https://www.cnblogs.com/yiweiblog/p/12652558.html
Copyright © 2011-2022 走看看