zoukankan      html  css  js  c++  java
  • pandas-22 数据去重处理

    pandas-22 数据去重处理

    数据去重可以使用duplicated()和drop_duplicates()两个方法。
    DataFrame.duplicated(subset = None,keep =‘first’ )返回boolean Series表示重复行
    参数:
    subset:列标签或标签序列,可选
    仅考虑用于标识重复项的某些列,默认情况下使用所有列
    keep:{‘first’,‘last’,False},默认’first’

    • first:标记重复,True除了第一次出现。
    • last:标记重复,True除了最后一次出现。
    • 错误:将所有重复项标记为True。
    import numpy as np
    import pandas as pd
    from pandas import Series, DataFrame
    
    df = pd.read_csv('./demo_duplicate.csv')
    print(df)
    print(df['Seqno'].unique()) # [0. 1.]
    
    # 使用duplicated 查看 重复值
    # 参数 keep 可以标记重复值 {'first','last',False}
    print(df['Seqno'].duplicated())
    '''
    0    False
    1     True
    2     True
    3     True
    4    False
    Name: Seqno, dtype: bool
    '''
    
    # 删除 series 重复数据
    print(df['Seqno'].drop_duplicates())
    '''
    0    0.0
    4    1.0
    Name: Seqno, dtype: float64
    '''
    
    # 删除 dataframe 重复数据
    print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
    '''
        Price  Seqno Symbol        time
    0  1623.0    0.0   APPL  1473411962
    4  1649.0    1.0   APPL  1473411963
    '''
    # drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
    print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
    '''
        Price  Seqno Symbol        time
    3  1623.0    0.0   APPL  1473411963
    4  1649.0    1.0   APPL  1473411963
    '''
    
  • 相关阅读:
    jenkins 邮件配置
    jenkins+git学习笔记
    用户定义的变量+HTTP Cookie 管理器组合实现接口关联+问题处理
    jmeter参数化实现之CSV Data Set Config
    Jmeter学习笔记
    除法应用遇到的问题-类型及小数点
    python2输出中文乱码问题
    python常见函数及方法
    数据库的基本操作
    使用eclipse搭建maven项目
  • 原文地址:https://www.cnblogs.com/wenqiangit/p/11252859.html
Copyright © 2011-2022 走看看