在数据预处理的过程当中往往需要将多个数据集合中的数据整合到一个数据仓库中,即:需要对数据库进行集成。与此同时,为了更好地对数据仓库中的数据进行挖掘,对数据仓库中的数据进行变换也在所难免。本文主要针对数据集成以及数据变化两个问题展开论述。
数据集成在将多个数据库整合为一个数据库过程中存在需要着重解决三个问题:模式匹配、数据冗余以及数据值冲突。来自多个数据集合的数据由于在命名上存在差异导致等价的实体具有不同的名称,这给数据集成带来了挑战。怎样才能更好地对来源不同的多个实体进行匹配是摆在数据集成面前的第一个问题,涉及到实体识别问题,主要利用元数据来进行区分。
数据冗余可能来源于数据属性命名的不一致,在解决数据冗余的过程中对于数值属性可以利用皮尔逊积矩Ra,b来衡量,它是一个位于[-1,1]之间的数值,大于零那么属性之间呈现正相关,否则为反相关。绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。
在数据集成中最后一个重要问题便是数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。
数据变换将数据转换或者统一为适合进行数据挖掘的形式,主要涉及一下几点:
1.光滑:去掉数据中的噪声,主要有分箱、回归和聚类等方法;
2.聚集:通过对数据仓库中的数据进行简单的汇总和聚集来获得统计信息,以便对数据进行更高层次的分析;
3.数据泛化:使用概念分层的方式,利用高层的概念来替换低层或原始数据;
4.规范化:对属性数据进行缩放,使之可以落入到一个特定区域之间,主要有最小-最大规范化、Z-Score规范化(利用均值和标准差)以及小数定标(除以10的n次方,使之落到[-1,1])规范化等方法;
5.属性构造:构造新的属性并添加到属性集合中以便帮助挖掘。