zoukankan      html  css  js  c++  java
  • Pandas重复值处理

    import pandas as pd
    
    #生成数据
    data1,data2,data3,data4=['a',3],['b',2],['a',3],['c',2]
    df=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2'])
    print(df)
      col1  col2
    0    a     3
    1    b     2
    2    a     3
    3    c     2
    
    #判断数据
    isDuplicated=df.duplicated() #判断重复数据记录
    print(isDuplicated)
    0    False
    1    False
    2     True
    3    False
    dtype: bool
    
    #删除重复的数据
    print(df.drop_duplicates()) #删除所有列值相同的记录,index为2的记录行被删除
      col1  col2
    0    a     3
    1    b     2
    3    c     2
    
    print(df.drop_duplicates(['col1'])) #删除col1列值相同的记录,index为2的记录行被删除
      col1  col2
    0    a     3
    1    b     2
    3    c     2
    
    print(df.drop_duplicates(['col2'])) #删除col2列值相同的记录,index为2和3的记录行被删除
      col1  col2
    0    a     3
    1    b     2
    
    print(df.drop_duplicates(['col1','col2'])) #删除指定列(col1和col2)值相同的记录,index为2的记录行被删除
      col1  col2
    0    a     3
    1    b     2
    3    c     2
    
    
  • 相关阅读:
    学习进度(十一)
    学习进度(十)
    人月神话阅读笔记1
    SQL SUM() 函数
    SQL GROUP BY 语句
    SQL HAVING 子句
    SQL UCASE() 函数
    SQL LCASE() 函数
    SQL MID() 函数
    SQL LEN() 函数
  • 原文地址:https://www.cnblogs.com/hankleo/p/11462532.html
Copyright © 2011-2022 走看看