zoukankan      html  css  js  c++  java
  • pandas 删除重复项

    使用如下函数:

    drop_duplicates

    具体示例如下:

    import pandas as pd
    # 建立一个dataframe数据
    df = pd.DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]})
    df['v1']=range(7)
    df  
    # 结果:
        k1  k2  v1
    0   one 1   0
    1   one 1   1
    2   one 2   2
    3   two 3   3
    4   two 3   4
    5   two 4   5
    6   two 4   6
    1.删除完全重复的行
    df.drop_duplicates()
    # 由于没有完全重复的行,因此返回结果跟原数据一致
    # 结果:
        k1  k2  v1
    0   one 1   0
    1   one 1   1
    2   one 2   2
    3   two 3   3
    4   two 3   4
    5   two 4   5
    6   two 4   6
    2.按k1进行去重,对于重复项,保留第一次出现的值
    df.drop_duplicates('k1',keep='first')
    # 结果:
        k1  k2  v1
    0   one 1   0
    3   two 3   3
    3.按k2和k1两列进行去重
    df.drop_duplicates(['k2','k1'],keep='first')
    # 结果:
        k1  k2  v1
    0   one 1   0
    2   one 2   2
    3   two 3   3
    5   two 4   5

    keep:{‘first’, ‘last’, False}, 默认值 ‘first’

    • first:保留第一次出现的重复行,删除后面的重复行。
    • last:删除前面的重复项,保留最后一次出现的重复行。
    • False:删除所有重复项

    参考链接:https://www.jianshu.com/p/cb217042aca9

    不考虑业务场景,一味的争执技术的高下,都是耍流氓。
  • 相关阅读:
    [算法整理]树上求LCA算法合集
    线段树专题测试2017.1.21
    [数据结构]替罪羊树简介
    图论测试 2017.1.17
    bzoj 2038 A-小Z的袜子[hose]
    洛谷比赛『期末考后的休闲比赛2』
    [题解]bzoj 1861 Book 书架
    bzoj 3223 文艺平衡树
    Splay简介
    python2.7 一个莫名其妙的错误
  • 原文地址:https://www.cnblogs.com/leoych/p/14286635.html
Copyright © 2011-2022 走看看