数据质量分析
1.缺失值分析
数据的缺失主要包括记录的缺失和记录中某个字段的缺失,两者都会造成分析结果的不准确。
缺失值产生的影响
(1)数据挖掘建模将丢失大量的有用信息
(2)数据挖掘建模所表示出的不确定性更加显著,模型中蕴含的规律更难把握。
(3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。
2.异常值分析
异常值分析是检验数据是否录入错误以及含有不合常规的数据,忽视异常值是十分危险的,在数据分析过程中,应该剔除异常值,重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。
(1)简单统计分析
可以先对变量做一个描述性统计,进而查看那些数据是不合理的数据。最常用的统计量是最大值和最小值,如在年龄的数据中设置范围0-100,最大值100,最小值0.
(2)3 原则
如果数据服从正太分布,在3原则下,异常值被定义为一组测定值中与平均值偏差超过三倍的标准差的值。
(3)箱型图分析
箱型图提供了识别异常值的一个标准:异常值通常被定义为小于-1.5IQR或大于+1.5IQR的值。称为四分位数,表示全部观察值中有四分之一的数据取值比它小;为下四分位数,IQR为四分位间距。
3.一致性分析
数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。