zoukankan      html  css  js  c++  java
  • 结构化数据预处理导图(基础)

    1. 数据清洗

    1.1 数据质量概念

    数据清洗是保证数据质量的重要步骤,数据质量最重要的方面是准确性、完整性、一致性,其次还有时效性、可信性、可解释性。

    数据质量对于数据的不同适用对象而言重要性不同。

     

    数据质量问题有很多源头:

    人为性问题:

    • 人为的偶然因素:如记忆偏差、测量偏差;
    • 人为的系统因素:采集端因素和应用端因素。
      • 采集端如人、工具、环境等导致的系统性误差,导致准确性不佳
      • 应用端如人会主观根据兴趣选择属性,会导致完整性的缺失。

     

    系统性问题:

    • 数据采集方法设计的问题:如用户没有填写,系统强制填写的信息
    • 数据传输中的错误
    • ……

    1.2 数据清洗的流程和常用方法框架

    数据预处理

  • 相关阅读:
    7、python数据类型之集合set
    python基本数据类型练习
    matplotlib
    numpy常用函数
    pillow包
    keras-tensorflow版本对应
    python-激活和切换运行环境
    端口监控
    numpy
    低风险创业笔记
  • 原文地址:https://www.cnblogs.com/mx0813/p/12676336.html
Copyright © 2011-2022 走看看