zoukankan html css js c++ java

Pandas重复值处理

import pandas as pd

#生成数据
data1,data2,data3,data4=['a',3],['b',2],['a',3],['c',2]
df=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2'])
print(df)
  col1  col2
0    a     3
1    b     2
2    a     3
3    c     2

#判断数据
isDuplicated=df.duplicated() #判断重复数据记录
print(isDuplicated)
0    False
1    False
2     True
3    False
dtype: bool

#删除重复的数据
print(df.drop_duplicates()) #删除所有列值相同的记录，index为2的记录行被删除
  col1  col2
0    a     3
1    b     2
3    c     2

print(df.drop_duplicates(['col1'])) #删除col1列值相同的记录，index为2的记录行被删除
  col1  col2
0    a     3
1    b     2
3    c     2

print(df.drop_duplicates(['col2'])) #删除col2列值相同的记录，index为2和3的记录行被删除
  col1  col2
0    a     3
1    b     2

print(df.drop_duplicates(['col1','col2'])) #删除指定列（col1和col2）值相同的记录，index为2的记录行被删除
  col1  col2
0    a     3
1    b     2
3    c     2

查看全文

相关阅读:
学习之Struts2框架实现原理----个人理解
 The import java.util cannot be resolved The import javax.servlet cannot be resolved
谈谈HashSet的存储原理
 RabbitMQ的问题
 剑指Offer:合并列表(25)
剑指Offer:反转列表(24)
剑指Offer:链表中倒数第 K 个结点(22)
剑指Offer:调整数组顺序使奇数位于偶数前面(21)
剑指Offer:机器人的运动范围(13)
剑指Offer:变态跳台阶(10.4)

原文地址：https://www.cnblogs.com/hankleo/p/11462532.html