数据分析师入门——用 Pandas 进行数据预处理：数据清洗与可视化 - 走看看

zoukankan html css js c++ java

数据分析师入门——用 Pandas 进行数据预处理：数据清洗与可视化

这里只选取视频中的部分，详细资料还是去Datacastle下载看吧

数据清理的一些内容：

格式转换：

比如Excel和数据库中关于时间的记录；它是字符串的格式来进行保存的，如果想对时间进行一些运算的话，就必须利用Python里的一些包。

缺失数据：

可以说是数据清理的最重要的一个问题。

那么，如何应对数据缺失问题呢？

利用平均值、最常出现的值进行填充。（这是非常大的一个研究的方向）

异常数据：

出现不符合常识的数值

标准化：

数据清理实践

需要的包：

pandas:pip install pandas

seaborn:pip install seaborn

介绍了：

user.describe

user.shape

user.loc等待方法

数据清理：

to_datetime方法转换成日期类型

日期相减：

处理age异常：

利用dropna()方法去掉NaN

绘制平均值的图：

只取年龄<90岁的人

由于很多都<10岁，不符合实际。再取年龄>10岁的

柱状图

查看全文

相关阅读:
[转] linux下查看文件编码及修改编码
 offset Dimensions 详解
 style属性
 Using NodeLists
Element Children
Node、Document关系的探究
 Document、HTMLDocument关系的探究
 BOM Summary P268-P269
Intervals and Timeouts
Window Position

原文地址：https://www.cnblogs.com/JasonPeng1/p/12118924.html

Copyright © 2011-2022 走看看