zoukankan html css js c++ java

第十四节 pandas缺失值处理

import pandas as pd
pd.options.display.max_rows = 10  # 设置显示行数

df1 = pd.read_csv(r'E:anacondatestPythonData高校信息.csv', encoding='gbk', index_col='学校名称')

# 系统默认缺失值None和np.nan，两者和核心区别在于是否能够比较
df1.名次.iloc[:3] = None
# print(df1.名次.isna())
import numpy as np
df1.名次.iloc[:5] = np.nan
# pd.options.mode.use_inf_as_na  设定inf和-inf是否认定为缺失值

# 缺失值处理，标识缺失值
df2na = df1.replace(['北京', 100], [np.nan, np.nan])
df2na.replace(['北京', 100], [np.nan, np.nan]).isna()
df2na.isna().any(1)  # 1表示列
print(df2na[df2na.isna().any(1)])

# 填充缺失值
df1.replace(['北京', 100], [np.nan, np.nan]).fillna('未知')

# 删除缺失值
df1.dropna(axis=1, how='all')  # all全部NA才删除，any任何一个为Na就删除

# 数据查重
df1['是否重复数据'] = df1.duplicated(['类型', '所在省份'])  # 类型,所在省份都相等才算重复

# 删除重复行
df1.drop_duplicates(['类型', '所在省份'])

查看全文

相关阅读:
从一个整数数组中取出最大的整数，最小整数，总和，平均值
 9、数组知识点小结
 结构类型小结
 枚举类型小结
 asp.net MVC 笔记
 Android自动化测试之Shell脚本一——模拟触屏事件
 Android性能优化案例研究
 ViewHolder模式的简洁写法
 genymotion ddms查看data等文件目录
 Android事件传递机制

原文地址：https://www.cnblogs.com/kogmaw/p/12563390.html

最新文章
sort 函数用法简介
 4、创建子页面
 3、H5+初始化
 2、界面初始化
 1、学习app初衷
 刚建的博客，互相学习分享
 python时间函数
 lua语言
 多线程模型
 openssl