zoukankan      html  css  js  c++  java
  • 数据探索-数据质量分析

    数据质量分析

    1.缺失值分析
    数据的缺失主要包括记录的缺失和记录中某个字段的缺失,两者都会造成分析结果的不准确。

    缺失值产生的影响
    (1)数据挖掘建模将丢失大量的有用信息
    (2)数据挖掘建模所表示出的不确定性更加显著,模型中蕴含的规律更难把握。
    (3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。

    2.异常值分析
    异常值分析是检验数据是否录入错误以及含有不合常规的数据,忽视异常值是十分危险的,在数据分析过程中,应该剔除异常值,重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。

    (1)简单统计分析
    可以先对变量做一个描述性统计,进而查看那些数据是不合理的数据。最常用的统计量是最大值和最小值,如在年龄的数据中设置范围0-100,最大值100,最小值0.

    (2)3 σsigma原则
    如果数据服从正太分布,在3σsigma原则下,异常值被定义为一组测定值中与平均值偏差超过三倍的标准差的值。

    (3)箱型图分析
    箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QLQ_L-1.5IQR或大于QUQ_U+1.5IQR的值。QLQ_L称为四分位数,表示全部观察值中有四分之一的数据取值比它小;QUQ_U为下四分位数,IQR为四分位间距。

    3.一致性分析
    数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。

  • 相关阅读:
    roundabout插件使用(3d旋转轮播图)兼容IE8
    css实现定高的元素在不定高的容器中水平垂直居中(兼容IE8及以上)
    jq点击小图 弹出大图(更新版)
    pc端页面在移动端显示问题
    swiper横向轮播--3d
    swiper横向轮播(兼容IE8)
    windows 7安装apache
    从SDP中至少要看到那些东西?
    FS拓展设置
    Freeswitch 入门
  • 原文地址:https://www.cnblogs.com/gaoxing2580/p/12817320.html
Copyright © 2011-2022 走看看