zoukankan      html  css  js  c++  java
  • 数据预处理相关

    python 去除Excel中的重复行数据

    导入pandas

    import pandas as pd
    1.读取excel中的数据;
    frame = pd.DataFrame(pd.read_csv('excel的绝对路径.csv'’, 'Sheet1'))
    2.去除重复行后的数据;
    data = frame.drop_duplicates(subset=’’, keep='first', inplace=’’)
    drop_duplicates用法:subset=‘需要去重复的列名’, keep=‘遇到重复的时保留第一个还是保留最后一个’, inplace=‘去除重复项,还是保留重复项的副本’

    subset : column label or sequence of labels, optional
    用来指定特定的列,默认所有列
    keep : {‘first’, ‘last’, False}, default ‘first’
    删除重复项并保留第一次出现的项
    inplace : boolean, default False
    是直接在原来数据上修改还是保留一个副本

    3.保存去重后的数据到excel;
    data.to_excel('路径+名字.xlsx')
    或者
    data.to_csv(路径+名字.csv', encoding='utf8')

  • 相关阅读:
    es6 可迭代对象
    前端模板
    快速排序
    parseHTML2Vnode
    最大并发请求
    选择排序
    window命令
    Asp.net问题集锦
    ExtJs5.1.1使用中问题集锦
    Sql Server问题集锦
  • 原文地址:https://www.cnblogs.com/zombiee99/p/14323200.html
Copyright © 2011-2022 走看看