zoukankan      html  css  js  c++  java
  • 数据挖掘概念与技术(韩家伟)阅读笔记4--数据集成和变换

    1.数据集成需考虑的问题

           a.模式集成和对象匹配

           b.冗余。原因一:能够用一个或一组属性导出,原因二:属性或维命名的不一致。

    2.属性冗余的相关分析检测

           a.数值属性计算相关系数

           

           说明:n为元祖个数,ai,bi分别为元祖i中属性A,B的值。-A,-B分别为A和B的均值,然后是A,B的标准差,然后是AB叉积(即,对于每个元祖,属性A乘以B)的和。注意应有:-1<=r<=1,如果r大于0,则A,B是正相关的。意味着A的值随B的值得增加而增加,该值越大,相关性越强。r=0表示不想关。r<0,AB负相关,意味着一个属性阻止另一个属性的出现。

           另外:两个属性相关并不意味着一个导致另外一个。

          b.分类(离散)数据通过x2,卡方检验。

                 设A有r个值,B有c个值,则A的r个值与B的c个值构成一个表的列和行。令(Ai,Bi)表示A取值ai,B取值bi的事件。

                                      

                 其中,Oij是联合事件(Ai,Bj)的观测频度(即实际计数),而eij是(Ai,Bj)的期望频度,可以用下式计算:

                                       

                 其中,N是数据元祖的个数,count(A=ai)是A具有值ai的元祖个数,count(B=bj)是B具有值bj的元祖个数。

    3.元祖级冗余检测重复

           不一致通常出现在各种不同的副本之间,在于输入的错误和更新了数据的部分出现,而未更新所有的出现。

     4.数据值冲突的检测和处理

           不同数据源属性的表示,比例,单位,编码不一致。不同数据源相同名字属性的表示意义可能不同。

     5.数据变换涉及的内容(数据准备)

            a.光滑:去噪声

        b.聚集(不同于聚类):汇总和聚集更多的是对现有的数据进行综合计算得到新的属性值(例如:求年收入)。

        c.数据泛化:使用概念分层,用高的概念替换原始数据。例如,国家替换街道,青年替换数值年龄等。

           d.属性构造。构建新的属性添加到属性集中,以帮助挖掘过程,类似于聚集,但不仅仅是汇总,而且目的不同。

      

            

  • 相关阅读:
    计算几何——直线交点poj1269
    计算几何——线段和直线判交点poj3304
    mysql优化
    MyBatis的返回参数类型和查询结果遍历
    Java中HashMap遍历的两种方式
    Java 常用排序算法/程序员必须掌握的 8大排序算法
    手动挡车该如何磨合
    手动挡你会开吗 八招教你开好手动挡车型
    开手动挡车10大技巧 老司机也不一定全知道!
    手动挡汽车操作必须知道的9大误区
  • 原文地址:https://www.cnblogs.com/zjh225901/p/6018842.html
Copyright © 2011-2022 走看看