数据预处理相关 - 走看看

zoukankan html css js c++ java

数据预处理相关

python 去除Excel中的重复行数据

导入pandas

import pandas as pd
1.读取excel中的数据；
frame = pd.DataFrame(pd.read_csv('excel的绝对路径.csv'’, 'Sheet1'))
2.去除重复行后的数据;
data = frame.drop_duplicates(subset=’’, keep='first', inplace=’’)
drop_duplicates用法：subset=‘需要去重复的列名’, keep=‘遇到重复的时保留第一个还是保留最后一个’, inplace=‘去除重复项，还是保留重复项的副本’

subset : column label or sequence of labels, optional
用来指定特定的列，默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项
inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本

3.保存去重后的数据到excel;
data.to_excel('路径+名字.xlsx')
或者
data.to_csv(路径+名字.csv', encoding='utf8')

查看全文

相关阅读:
跨域请求页面跳转
 media query学习笔记
 JSONP跨域数据调用
 【转】轮询、长轮询、iframe长连接、web socket
［转］node.js学习笔记(二)
【转】require.js学习笔记(二)
【转】require.js学习笔记(一)
计算星期
 确定母亲节
 计算时钟的夹角

原文地址：https://www.cnblogs.com/zombiee99/p/14323200.html

Copyright © 2011-2022 走看看