zoukankan html css js c++ java

Pandas常用操作

df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [16, 16, 15, np.nan, 21]})

  stu_name  stu_age
0    Nancy     17.0
1     Tony     16.0
2     Tony     16.0
3     Jack     21.0
4     Jack      NaN

df_clean = df.drop_duplicates(subset=['stu_name'])
print(df)

  stu_name  stu_age
0    Nancy     17.0
1     Tony     16.0
3     Jack     21.0

df_clean2 = df.drop_duplicates(subset=['stu_name', 'stu_age'])
print(df_clean2)

  stu_name  stu_age
0    Nancy     17.0
1     Tony     16.0
3     Jack     21.0
4     Jack      NaN

df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [16, 16, 15, np.nan, 21]})

  stu_name  stu_age
0    Nancy     17.0
1     Tony     16.0
2     Tony     16.0
3     Jack     21.0
4     Jack      NaN

duplicate_df = df[df.duplicated('stu_name')]
clean_df = df.drop(duplicate_df.index)

subset: 单个列名或者一组列名数组（可选）。如果不设置该参数，则默认对全部列进行去重
keep: 保留的列

尊重写作权利，转载请注明出处 ^_^

查看全文

相关阅读:
矩阵乘法运算test
c字符数组转整型【c语言复习1】
（转载）JavaScript的那些书
 数据结构排序算法
 （转载）给自己降降级你会发现一片广阔的天空
 Cocos2D简介
 JRE not compatible with workspace .class file compatibility: 1.7
水晶报表问题，请高手指教。
控件开发该如何入门?
cnblogsDottext的FTB不生效,只是显示一个textarea标记,为什么呢?