zoukankan      html  css  js  c++  java
  • 数据分析

    1.数据质量分析

    数据质量分析主要任务:检查原始数据是否存在脏数据。

    脏数据:

    • 缺失值
    • 异常值
    • 不一致的值
    • 重复数据及含有特殊符号(如:#、¥、*)的数据

    1.1 缺失值分析

    数据缺失主要包括:记录的缺失、记录中某个字段信息的缺失。

    缺失值产生原因:

    • 有些信息暂时无法获取,获取信息代价太大
    • 部分信息被遗漏,人为因素:忘记填写或对数据理解错误引起数据遗漏;非人为因素:数据采集设备、存储介质、传输媒体故障引起数据丢失
    • 属性值不存在,如:未婚者配偶姓名

    缺失值影响:

    • 数据挖掘建模丢失大量有用信息
    • 数据挖掘模型所表现处的不确定性更加显著
    • 控制数据会导致建模过程陷入混乱,导致不可靠的输出

    缺失值分析:

    • 数据统计

    1.2 异常值分析

    异常值分析:检验数据是否有录入错误及不合常理的数据。

    异常分析方法:

    • 简单统计量分析:常用统计量,最大值、最小值,用于判断变量取值是否超出合理范围
    • 3δ原则;若数据服从正态分布,异常值被定义为,一组测定值中与平均值偏差超过3倍标准差的值
    • 箱型图分析:异常值被定义为小于QL-1.5IQLR或大于QL+1.5IQLR的值

    1.3一致性分析

    数据不一致性,指数据的矛盾性、不相容性,主要发生在数据集成过程中。

  • 相关阅读:
    过河卒 题解
    You Are the One solution
    D
    Find a way solution
    A
    入门训练 Fibonacci数列
    求平均成绩 题解
    海选女主角 题解
    子集生成和组合问题
    log4j
  • 原文地址:https://www.cnblogs.com/loser1949/p/8290598.html
Copyright © 2011-2022 走看看