zoukankan      html  css  js  c++  java
  • Python基本的数据清洗

      接触Python两年多了,还从来没有独立用Python完成一个项目,说来惭愧。最近因为工作需要,用Excel和oracle整理数据貌似不可行了,于是转向Python,理所当然的踩了很多坑,一一记录下来,避免以后再次入坑,毕竟不常用,好了伤疤就会忘了疼···

    业务场景:

      领导拿来几个Excel,共150W条保险数据,需要按照特定规则筛选出满足条件的数据。

      字段:业务机构、保单号、案件号、被保险人、代码1、标的车号、VIN码、驾驶员、电话、出险时间、出险经过、维修企业、定损金额、三者车号、三者VIN、三者驾驶员、代码2、三者维修企业、查勘定损人员;

      150W条数据没有唯一标识字段:同一个案件号对应一个标的车号、0-多个三者车号,一个标的车号对应一个或多个保单号,所以需要通过标的车号、保单号、报案号三个字段唯一确定一条理赔记录。

      筛选规则:

      电话频率大于等于3次(1年内);车架号(标的及三者大于等于3次(1年内;驾驶员姓名(标的及三者)大于等于3次(1年内),标的与三者维修单位为同一修配厂的;同一车号或是车架号在10日内出险两次的;出险时间在21:00~6:00的案件,做风险标识。

      给到的数据,有以下几个问题:

    1. 部分记录数据不完整,整体缺失率较低
    2. 部分字段信息录入错误,比如,电话字段中出现字符、时间字段中出现11位数字(疑似电话信息)
    3. 有重复数据
    4. Excel数据表列名不一致

    问题总结:

      这就是一个简单的数据筛选工作!

      但是刚好工作不忙,刚好也想拿数据练练手,于是就开始操练起来了~

        动手之前,要通过各种途径对数据进行全方位的了解,否则,浪费时间!

             通过向数据来源方询问变量之间的关系、通过常识判断各变量的取值特性、通过探索性分析了解各变量的缺失/取值情况、结果导向分析数据清洗过程中可能会遇到的问题。

    问题分解:

    1. 数据存储在多个Excel表格中,将这些数据读到一个变量中
    2. 按筛选条件整理数据
    3. 输出筛选数据

    代码部分,我要放到另一篇文章里面~

  • 相关阅读:
    了解外界的窗口
    博客添加卡通精灵
    LINUX chage 命令 以及常用参数
    Linux系统 端口知识以及相关监听工具
    Linux 常用命令之cp
    树莓派的知识分享
    ghost一键备份还原工具使用指南
    使用rsync在Windows(服务端)与Linux (客户端)之间的同步
    制作linux 随身碟
    白嫖!1000+个常用的Linux命令!
  • 原文地址:https://www.cnblogs.com/cyxiaer/p/9501926.html
Copyright © 2011-2022 走看看