Python 处理 CSV/EXCEL 表格文件

zoukankan html css js c++ java

Python 处理 CSV/EXCEL 表格文件
只想说，数据挖掘工作，80%时间都花在处理数据上了，这句话真不假！

最近和小伙伴组了个队参加数据分析比赛，记录下我处理 csv 文件的一些步骤吧：

修改csv文件

可以用csv模块^[1],官方文档^[2]
```
import pandas as pd
import csv
city_class={1:['北京','上海','重庆','天津'],2:['成都','大连','沈阳'],3:['长春']}
with open('city_test.csv','r+') as f:
    f.readline()
    data=csv.reader(f)
    rows=[r for r in data]
    print(rows)
    for i in rows:
        for key,values in  city_class.items():
            if i[0] in values:
                i[0]=key
    writer = csv.writer(open('output.csv', 'w'))
    print(rows)
    writer.writerows(rows)                
```
修改excel

csv文件问题多多，不如直接用exel的xlsx文件也ok:
```
data = pd.read_excel('test.xlsx')
data['city'].map(dict)
```
这里使用map^[3]对中文数据的城市进行匹配，替换成数字。

将excel文件中转换成dict
```
a=df.set_index('city')['num'].to_dict()
```
将excel中的两列转换成字典，用来匹配我上面的城市。^[4]

统计excel文件行数和列数
```
rows=len(data.index)
rows=data['某列名'].count()
data.shape()	#获得形状，是一个tuple   行数*列数
```
EDIT: As noted @Dan Allen in the comments len(df.index) and df[0].count() are not interchangeable as count excludes NaNs,^[5]

统计计数

计数统计我们使用：value_counts()

参考
官方-CSV File Reading and Writing ↩︎

so-python修改csv specific values ↩︎

index-pandas-map ↩︎

so-python pandas dataframe to dictionary ↩︎

so-how to get row count of pandas dataframe? ↩︎
查看全文

相关阅读:
Python基础-数据写入execl
Python基础-读取excel
table合并单元格colspan和rowspan
从PHP客户端看MongoDB通信协议(转)
win7环境下mongodb分片和移除
 32位下操作mongodb心得
 Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 1099 bytes) in
js关闭当前页面(窗口)的几种方式
 js页面跳转和 js打开新窗口方法
 MongoDB中的_id和ObjectId

原文地址：https://www.cnblogs.com/michael-xiang/p/10467480.html

Python 处理 CSV/EXCEL 表格文件

修改csv文件

修改excel

将excel文件中转换成dict

统计excel文件行数和列数

统计计数

参考