zoukankan      html  css  js  c++  java
  • 数据分析师入门——用 Pandas 进行数据预处理:数据清洗与可视化

    这里只选取视频中的部分,详细资料还是去Datacastle下载看吧

    数据清理的一些内容:

    格式转换:

    比如Excel和数据库中关于时间的记录;它是字符串的格式来进行保存的,如果想对时间进行一些运算的话,就必须利用Python里的一些包。

    缺失数据:

    可以说是数据清理的最重要的一个问题。

    那么,如何应对数据缺失问题呢?

    利用平均值、最常出现的值进行填充。(这是非常大的一个研究的方向)

    异常数据:

    出现不符合常识的数值

    标准化:

     


    数据清理实践

    需要的包:

    pandas:pip install pandas

    seaborn:pip install seaborn

    介绍了:

     user.describe

    user.shape

    user.loc等待方法

    数据清理:

    to_datetime方法转换成日期类型

    日期相减:

    处理age异常:

    利用dropna()方法去掉NaN

    绘制平均值的图: 

    只取年龄<90岁的人 

    由于很多都<10岁,不符合实际。再取年龄>10岁的

    柱状图

  • 相关阅读:
    Centos7使用systemd 管理elasticsearch,创建elasticsearch服务
    nginx日志切割的2种方法
    sudo linux
    redis 重启不了
    类与对象
    用Python写一个小的购物车
    包的使用
    Python模块简介
    zookeeper & Dubbo
    迭代器 & 生成器
  • 原文地址:https://www.cnblogs.com/JasonPeng1/p/12118924.html
Copyright © 2011-2022 走看看