zoukankan      html  css  js  c++  java
  • pandas 删除重复项

    使用如下函数:

    drop_duplicates

    具体示例如下:

    import pandas as pd
    # 建立一个dataframe数据
    df = pd.DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]})
    df['v1']=range(7)
    df  
    # 结果:
        k1  k2  v1
    0   one 1   0
    1   one 1   1
    2   one 2   2
    3   two 3   3
    4   two 3   4
    5   two 4   5
    6   two 4   6
    1.删除完全重复的行
    df.drop_duplicates()
    # 由于没有完全重复的行,因此返回结果跟原数据一致
    # 结果:
        k1  k2  v1
    0   one 1   0
    1   one 1   1
    2   one 2   2
    3   two 3   3
    4   two 3   4
    5   two 4   5
    6   two 4   6
    2.按k1进行去重,对于重复项,保留第一次出现的值
    df.drop_duplicates('k1',keep='first')
    # 结果:
        k1  k2  v1
    0   one 1   0
    3   two 3   3
    3.按k2和k1两列进行去重
    df.drop_duplicates(['k2','k1'],keep='first')
    # 结果:
        k1  k2  v1
    0   one 1   0
    2   one 2   2
    3   two 3   3
    5   two 4   5

    keep:{‘first’, ‘last’, False}, 默认值 ‘first’

    • first:保留第一次出现的重复行,删除后面的重复行。
    • last:删除前面的重复项,保留最后一次出现的重复行。
    • False:删除所有重复项

    参考链接:https://www.jianshu.com/p/cb217042aca9

    不考虑业务场景,一味的争执技术的高下,都是耍流氓。
  • 相关阅读:
    LeetCode 45 Jump Game II
    LeetCode 54. Spiral Matrix
    LeetCode 53. Maximum Subarray
    LeetCode 52. N-Queens II
    智齿的秘密
    《婚姻故事》观影笔记
    为什么在linux系统下安装anaconda的时候会报错
    pandas时间序列学习笔记
    极大似然估计和最小二乘法
    粗糙集学习笔记
  • 原文地址:https://www.cnblogs.com/leoych/p/14286635.html
Copyright © 2011-2022 走看看