zoukankan      html  css  js  c++  java
  • 数据分析师入门——用 Pandas 进行数据预处理:数据清洗与可视化

    这里只选取视频中的部分,详细资料还是去Datacastle下载看吧

    数据清理的一些内容:

    格式转换:

    比如Excel和数据库中关于时间的记录;它是字符串的格式来进行保存的,如果想对时间进行一些运算的话,就必须利用Python里的一些包。

    缺失数据:

    可以说是数据清理的最重要的一个问题。

    那么,如何应对数据缺失问题呢?

    利用平均值、最常出现的值进行填充。(这是非常大的一个研究的方向)

    异常数据:

    出现不符合常识的数值

    标准化:

     


    数据清理实践

    需要的包:

    pandas:pip install pandas

    seaborn:pip install seaborn

    介绍了:

     user.describe

    user.shape

    user.loc等待方法

    数据清理:

    to_datetime方法转换成日期类型

    日期相减:

    处理age异常:

    利用dropna()方法去掉NaN

    绘制平均值的图: 

    只取年龄<90岁的人 

    由于很多都<10岁,不符合实际。再取年龄>10岁的

    柱状图

  • 相关阅读:
    Flink批处理读取Hive写入MySql
    数组与链表的优缺点
    Flink任务暂停重启
    Flink优化总结
    Flink集群监控
    flink连接器-流处理-读写redis
    Flink连接器-批处理-读写Hbase
    flink on yarn
    java的常量定界符
    特殊注释的使用
  • 原文地址:https://www.cnblogs.com/JasonPeng1/p/12118924.html
Copyright © 2011-2022 走看看