zoukankan      html  css  js  c++  java
  • 如何用Python中自带的Pandas和NumPy库进行数据清洗

    一、概况

    1、数据清洗到底是在清洗些什么?

    通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息,列名不规范、格式不一致,存在重复值,缺失值,异常值等.....

    二、使用库介绍

    1、Pandas

    Python的一个数据分析包,被作为金融数据分析工具,为时间序列分析提供了很好的支持

    2、NumPy

    Python的一种开源的数值计算扩展,可用来存储和处理大型矩阵matrix,比Python自身的嵌套列表结构要高效的多,提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库,专为进行严格的数字处理而产生。

    步骤:

    一、了解数据

    二、清洗数据

    去除不需要的行、列

    重新命名列

    重新设置索引

    用字符串操作规范列

    用函数规范列

    删除重复数据

    填充缺失值

     

    三、总结

  • 相关阅读:
    centos7下查看端口是否被占用
    centos7通过yum安装redis
    centos7下mysql远程连接
    centos7通过yum安装JDK1.8
    Jwt系列2:使用
    Jwt系列1:简介
    Python基础语法
    排序
    利用MultipartFile来进行文件上传
    服务器端跳转和客户端跳转
  • 原文地址:https://www.cnblogs.com/chjxbt/p/10949427.html
Copyright © 2011-2022 走看看