zoukankan      html  css  js  c++  java
  • 数据分析

    1.数据质量分析

    数据质量分析主要任务:检查原始数据是否存在脏数据。

    脏数据:

    • 缺失值
    • 异常值
    • 不一致的值
    • 重复数据及含有特殊符号(如:#、¥、*)的数据

    1.1 缺失值分析

    数据缺失主要包括:记录的缺失、记录中某个字段信息的缺失。

    缺失值产生原因:

    • 有些信息暂时无法获取,获取信息代价太大
    • 部分信息被遗漏,人为因素:忘记填写或对数据理解错误引起数据遗漏;非人为因素:数据采集设备、存储介质、传输媒体故障引起数据丢失
    • 属性值不存在,如:未婚者配偶姓名

    缺失值影响:

    • 数据挖掘建模丢失大量有用信息
    • 数据挖掘模型所表现处的不确定性更加显著
    • 控制数据会导致建模过程陷入混乱,导致不可靠的输出

    缺失值分析:

    • 数据统计

    1.2 异常值分析

    异常值分析:检验数据是否有录入错误及不合常理的数据。

    异常分析方法:

    • 简单统计量分析:常用统计量,最大值、最小值,用于判断变量取值是否超出合理范围
    • 3δ原则;若数据服从正态分布,异常值被定义为,一组测定值中与平均值偏差超过3倍标准差的值
    • 箱型图分析:异常值被定义为小于QL-1.5IQLR或大于QL+1.5IQLR的值

    1.3一致性分析

    数据不一致性,指数据的矛盾性、不相容性,主要发生在数据集成过程中。

  • 相关阅读:
    BZOJ5368:[PKUSC2018]真实排名(组合数学)
    【HDU2222】Keywords Search
    KMP算法
    【BZOJ3262】 陌上花开
    【POJ2104】kth num
    【BZOJ1251】序列终结者
    【BZOJ3524】 [Poi2014]Couriers
    【BZOJ2049】 [Sdoi2008]Cave 洞穴勘测
    【BZOJ1468】Tree
    【BZOJ2152】聪聪可可
  • 原文地址:https://www.cnblogs.com/loser1949/p/8290598.html
Copyright © 2011-2022 走看看