zoukankan      html  css  js  c++  java
  • Pandas重复值处理

    import pandas as pd
    
    #生成数据
    data1,data2,data3,data4=['a',3],['b',2],['a',3],['c',2]
    df=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2'])
    print(df)
      col1  col2
    0    a     3
    1    b     2
    2    a     3
    3    c     2
    
    #判断数据
    isDuplicated=df.duplicated() #判断重复数据记录
    print(isDuplicated)
    0    False
    1    False
    2     True
    3    False
    dtype: bool
    
    #删除重复的数据
    print(df.drop_duplicates()) #删除所有列值相同的记录,index为2的记录行被删除
      col1  col2
    0    a     3
    1    b     2
    3    c     2
    
    print(df.drop_duplicates(['col1'])) #删除col1列值相同的记录,index为2的记录行被删除
      col1  col2
    0    a     3
    1    b     2
    3    c     2
    
    print(df.drop_duplicates(['col2'])) #删除col2列值相同的记录,index为2和3的记录行被删除
      col1  col2
    0    a     3
    1    b     2
    
    print(df.drop_duplicates(['col1','col2'])) #删除指定列(col1和col2)值相同的记录,index为2的记录行被删除
      col1  col2
    0    a     3
    1    b     2
    3    c     2
    
    
  • 相关阅读:
    SaltStack 配置SLS过程
    Python 正则表达式
    Python 矩阵的旋转
    SaltStack 远程执行
    SaltStack 配置管理
    SaltStack
    Python 装饰器
    Python 生产者和消费者模型
    Python 迭代器和生成器
    Python json模块
  • 原文地址:https://www.cnblogs.com/hankleo/p/11462532.html
Copyright © 2011-2022 走看看