zoukankan      html  css  js  c++  java
  • 数据探索-数据质量分析

    数据质量分析

    1.缺失值分析
    数据的缺失主要包括记录的缺失和记录中某个字段的缺失,两者都会造成分析结果的不准确。

    缺失值产生的影响
    (1)数据挖掘建模将丢失大量的有用信息
    (2)数据挖掘建模所表示出的不确定性更加显著,模型中蕴含的规律更难把握。
    (3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。

    2.异常值分析
    异常值分析是检验数据是否录入错误以及含有不合常规的数据,忽视异常值是十分危险的,在数据分析过程中,应该剔除异常值,重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。

    (1)简单统计分析
    可以先对变量做一个描述性统计,进而查看那些数据是不合理的数据。最常用的统计量是最大值和最小值,如在年龄的数据中设置范围0-100,最大值100,最小值0.

    (2)3 σsigma原则
    如果数据服从正太分布,在3σsigma原则下,异常值被定义为一组测定值中与平均值偏差超过三倍的标准差的值。

    (3)箱型图分析
    箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QLQ_L-1.5IQR或大于QUQ_U+1.5IQR的值。QLQ_L称为四分位数,表示全部观察值中有四分之一的数据取值比它小;QUQ_U为下四分位数,IQR为四分位间距。

    3.一致性分析
    数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。

  • 相关阅读:
    ubuntu 12.04 install flash for firefox
    ubuntu 12.04 修改 grub 启动参数
    ubuntu 12.04 英文系统怎么调出 ibus输入法
    Ubuntu 12.04 临时禁用和启动面板
    git部署
    php 递归删除文件夹
    一‘php文件系统
    xml的解构与组装
    memcached的部署
    1,秒杀系统的设计
  • 原文地址:https://www.cnblogs.com/gaoxing2580/p/12817320.html
Copyright © 2011-2022 走看看