现在有一列数据,列名demo
该列中存在重复数据,现在要对数据去重
利用pandas的drop_duplicates方法,subset指列名,keep指只保留遇到的第1个结果
import pandas as pd
data={'demo':[1,1,2,2,1,2,2,3,4,5,6,98,4,2,4,5,2,5,6,7]}
df=pd.DataFrame(data)
a=df.drop_duplicates(subset=['demo'],keep='first')
print(a)
效果:
demo列中重复的数据就已经没有了
参考文档: