zoukankan      html  css  js  c++  java
  • SPSS19.0实战之聚类分析

     

          这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最后。CNBlOG网页排版太困难了,又不喜欢live writer……

    聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean 聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚 类方法的所得到的类组间距离和组内聚类的大小。

     分析数据依然采用线性回归所使用的标准化后的能源消费数据。

    1.1 系统聚类

     本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。

    1.1.1 最短距离聚类法

    最短距离法聚类步骤如下:

    1. 规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品自成一类。
    2. 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1,将这两个样品归并成为一类,记为G1。
    3. 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。

    我们在SPSS中实现最短距离分析非常简单。单击“”-->“” -->“”。将弹出如图1-1所示的对话框,设置相应的参数即可。

     图1-1 最短距离法

    我们的数据已经做过标准化,在“转化值”-->“标准化”选项上选无。

    在统计量的聚类成员中选择“无”,因为这是非监督分类,不需要指定最终分出的类个数。在绘制中选择绘制“树状图”。单击确定,得到以下结果。

    1. 表3-1显示了数据的缺失情况:

                                                                案例处理汇总a

    案例

    有效

    缺失

    总计

    N

    百分比

    N

    百分比

    N

    百分比

    30

    100.0

    0

    .0

    30

    100.0

    表1-1 数据汇总

    我们的数据经过预处理,所以缺失值个数为0.

              2. 由于相关矩阵过于庞大,无法在文档中贴出,得到的是一个非相似矩阵。表1-2是样品聚类过程。样品21和28在第一步合并为一类,它们之间的非相关系数最 小,为0.211。在下一次合并是第十步。在第五步的时候,样品2、27、14组成一类,出现群集,样品个数为3。如上类推,可以解释表格。

    聚类表

    群集组合

    系数

    首次出现阶群集

    下一阶

    群集 1

    群集 2

    群集 1

    群集 2

    1

    21

    28

    .211

    0

    0

    10

    2

    12

    24

    .465

    0

    0

    6

    3

    2

    27

    .491

    0

    0

    5

    4

    13

    20

    .585

    0

    0

    9

    5

    2

    14

    .645

    3

    0

    6

    6

    2

    12

    .678

    5

    2

    7

    7

    2

    7

    .702

    6

    0

    8

    8

    2

    25

    .773

    7

    0

    9

    9

    2

    13

    .916

    8

    4

    11

    10

    21

    29

    1.085

    1

    0

    12

    11

    2

    18

    1.106

    9

    0

    12

    12

    2

    21

    1.115

    11

    10

    13

    13

    2

    17

    1.360

    12

    0

    14

    14

    2

    26

    1.564

    13

    0

    15

    15

    2

    22

    1.627

    14

    0

    16

    16

    2

    5

    1.649

    15

    0

    17

    17

    2

    8

    1.877

    16

    0

    18

    18

    2

    16

    3.027

    17

    0

    19

    19

    2

    30

    3.543

    18

    0

    20

    20

    2

    11

    4.930

    19

    0

    21

    21

    2

    4

    5.024

    20

    0

    22

    22

    2

    10

    6.445

    21

    0

    24

    23

    1

    9

    8.262

    0

    0

    26

    24

    2

    15

    10.093

    22

    0

    25

    25

    2

    23

    10.096

    24

    0

    26

    26

    1

    2

    10.189

    23

    25

    27

    27

    1

    6

    11.387

    26

    0

    28

    28

    1

    3

    13.153

    27

    0

    29

    29

    1

    19

    32.367

    28

    0

    0

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    表1-2 聚类过程

    我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图1-2所示,最短距离法组内距离小,但组间距离也较小。分类特征不够明显,无法凸显各个省份的能源消耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同,在其他方法中也显现出来。

    图1-2 最短距离法聚类图

    1.1.2 组间联接聚类

    组间联接聚类法定义为两类之间的平均平方距离,即。类CK和CL  合并为下一步的CM 则CM   与CJ距离的递推公式为:

    我们依然贴出组间联接法的聚类表和树状图。

    1. 聚类表如表1-3所示,相关解释类似于表1-1所述。

           

    聚类表

    群集组合

    系数

    首次出现阶群集

    下一阶

    群集 1

    群集 2

    群集 1

    群集 2

    1

    21

    28

    .211

    0

    0

    10

    2

    12

    24

    .465

    0

    0

    5

    3

    2

    27

    .491

    0

    0

    6

    4

    13

    20

    .585

    0

    0

    8

    5

    7

    12

    .840

    0

    2

    7

    6

    2

    14

    .937

    3

    0

    7

    7

    2

    7

    1.105

    6

    5

    11

    8

    13

    25

    1.331

    4

    0

    11

    9

    17

    18

    1.360

    0

    0

    14

    10

    21

    29

    1.495

    1

    0

    13

    11

    2

    13

    1.703

    7

    8

    15

    12

    8

    26

    1.877

    0

    0

    15

    13

    21

    22

    2.133

    10

    0

    18

    14

    5

    17

    2.378

    0

    9

    16

    15

    2

    8

    3.715

    11

    12

    16

    16

    2

    5

    3.926

    15

    14

    18

    17

    4

    16

    5.024

    0

    0

    23

    18

    2

    21

    5.526

    16

    13

    21

    19

    10

    11

    6.445

    0

    0

    22

    20

    1

    9

    8.262

    0

    0

    25

    21

    2

    30

    8.744

    18

    0

    23

    22

    6

    10

    11.508

    0

    19

    24

    23

    2

    4

    14.202

    21

    17

    25

    24

    6

    15

    14.288

    22

    0

    27

    25

    1

    2

    19.822

    20

    23

    26

    26

    1

    23

    23.363

    25

    0

    28

    27

    3

    6

    26.516

    0

    24

    28

    28

    1

    3

    31.210

    26

    27

    29

    29

    1

    19

    69.114

    28

    0

    0

    表1-2 组间联接聚类法

     

             2. 树状图如图1-3所示,可以看到聚类的组间距离较大,组内距离较小。聚类结果较为理想。可以看到海南与青海,宁夏自治区,重庆市的能源消耗特点近似,北京、上海两地能源消耗特点也近似。江浙两地亦然。

    最后广东和各地能源消耗特点都不同。

          

    1.1.3 Ward法聚类

    Ward即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。公式:

    递推公式:

    我依然贴出ward法聚类表和树状图。

    1. 聚类表如表1-4所示,相关解释类似于表1-1所述.

         

                                                                            聚类表

    群集组合

    系数

    首次出现阶群集

    下一阶

    群集 1

    群集 2

    群集 1

    群集 2

    1

    21

    28

    .106

    0

    0

    11

    2

    12

    24

    .338

    0

    0

    5

    3

    2

    27

    .584

    0

    0

    6

    4

    13

    20

    .876

    0

    0

    9

    5

    7

    12

    1.359

    0

    2

    12

    6

    2

    14

    1.902

    3

    0

    8

    7

    17

    18

    2.582

    0

    0

    13

    8

    2

    29

    3.351

    6

    0

    12

    9

    13

    25

    4.140

    4

    0

    14

    10

    8

    26

    5.079

    0

    0

    16

    11

    21

    22

    6.290

    1

    0

    19

    12

    2

    7

    7.647

    8

    5

    14

    13

    5

    17

    9.006

    0

    7

    21

    14

    2

    13

    11.211

    12

    9

    19

    15

    4

    16

    13.723

    0

    0

    23

    16

    8

    30

    16.642

    10

    0

    21

    17

    10

    11

    19.865

    0

    0

    20

    18

    1

    9

    23.996

    0

    0

    25

    19

    2

    21

    30.556

    14

    11

    24

    20

    6

    10

    37.154

    0

    17

    22

    21

    5

    8

    43.898

    13

    16

    24

    22

    6

    15

    52.159

    20

    0

    26

    23

    3

    4

    62.103

    0

    15

    26

    24

    2

    5

    73.051

    19

    21

    27

    25

    1

    23

    86.143

    18

    0

    27

    26

    3

    6

    106.442

    23

    22

    28

    27

    1

    2

    139.001

    25

    24

    29

    28

    3

    19

    177.895

    26

    0

    29

    29

    1

    3

    286.000

    27

    28

    0

    表1-4 Ward法聚类表

     

              2. 树状图如图1-4所示,我们可以看到这个结果较以上两种方法都为理想,组内距离都很小,控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合 它们的能源消耗特点。最后在接近10次迭代,广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类,说明它们之间的相似度也不大。

    图1-4 Ward法聚类树状图

    1.2 K-mean聚类

    K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终K个分类。 K-mean法对离群点敏感容易扭曲数据分布。

    单击“”-->“” -->“”将弹出如图1-5所示的对话框,我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。

    图1-5 K-mean聚类设置

    下面输出和解释K-mean聚类结果。

    1. 表1-5是K-mean的迭代历史记录,非常明了。

     

                                           迭代历史记录a

    迭代

    聚类中心内的更改

    1

    2

    3

    4

    5

    1

    2.796

    1.414

    1.813

    .000

    2.299

    2

    1.014

    .000

    .990

    .000

    .000

    3

    .000

    .000

    .000

    .000

    .000

    a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 5.209。

                                                          表1-5 迭代历史记录

        2.  表1-6是每个聚类样品数表。就是该次K-mean聚类所形成的类它们的样品数量。

    每个聚类中的案例数

    聚类

    1

    3.000

    2

    19.000

    3

    3.000

    4

    1.000

    5

    4.000

    有效

    30.000

    缺失

    .000

    表1-6 聚类样品数

         3.  表1-7是K-mean聚类的各个类的具体成员。距离代表的是样品自身和种子点的距离。

                                           聚类成员

    案例号

    地区名称

    聚类

    距离

    1

    北京市         

    1

    1.489

    2

    天津市         

    2

    .596

    3

    河北省         

    3

    2.575

    4

    山西省         

    3

    1.381

    5

    内蒙古自治区   

    2

    1.951

    6

    辽宁省         

    5

    2.299

    7

    吉林省         

    2

    .646

    8

    黑龙江省       

    2

    1.785

    9

    上海市         

    1

    2.506

    10

    江苏省         

    5

    1.569

    11

    浙江省         

    5

    2.034

    12

    安徽省         

    2

    .850

    13

    福建省         

    2

    1.096

    14

    江西省         

    2

    .960

    15

    山东省         

    5

    2.489

    16

    河南省         

    3

    1.980

    17

    湖北省         

    2

    2.096

    18

    湖南省         

    2

    1.211

    19

    广东省         

    4

    .000

    20

    广西壮族自治区 

    2

    .926

    21

    海南省         

    2

    1.905

    22

    重庆市         

    2

    1.436

    23

    四川省         

    1

    2.954

    24

    贵州省         

    2

    .984

    25

    云南省         

    2

    1.080

    26

    陕西省         

    2

    1.007

    27

    甘肃省         

    2

    .955

    28

    青海省         

    2

    1.744

    29

    宁夏回族自治区 

    2

    1.414

    30

    新疆维吾尔自治区

    2

    2.503

     表1-7 聚类成员

    最后看到分类结果与ward法有所相似,但是组内距离较大。实际效果不如Ward法。而且该方法需要事先设定分类的个数,并不适合没有先验知识的条件下的数据聚类。

    2.总结

    本次实习主要通过一批国内的能源消耗和产量数据,来实现回归分析和聚类分析。回归分析得到一个拟合度良好多元线性回归方程:Y=0.008+1.061x1+0.087x2+0.157 x3-0.365x4-0.105 x5-0.017x6 该方程的残差分析也通过了。聚类分析通过比较三种不同的系统聚类方法,同时还比较了K-mean方法与系统聚类法的不同。在处理该批数据的四种聚类方法中,以ward法最为理想。Ward法所做的聚类得到组间距离最大,组内距离最小。

    3.参考文献

    [1] Ronald .E et al..周勇..理工科概率统计.[M].北京:机械工业出版社,2010:311-326.

    [2] 袁志发,周静芋.多元统计分析[M].北京:科学出版社,2003:110-145,241-250.

    [3] J. Han and M. Kamber. Datamining: concepts and techniques[M]. Morgan Kaufmann, 2006:251-267.

    [4]SPSS for Window:分类分析[EB/OL].

    http://www.fjmu.edu.cn/news/spss/doc3/sp10.htm#j1,1999-10/2010-12-25,

    1999-10/2010-12-25       

    [5] 聚类分析[EB/OL].

    http://www.math.pku.edu.cn/teachers/lidf/docs/statsoft/html/sas-5/cluster.html ,

    2010-12-26

    [6]  张文彤.SPSS 10.0高级教程十二:多元线性回归与曲线拟合[EB/OL].

    http://www.bioon.com/biology/spss/55215.shtml,2004-7-12/2010-12-25

    [7] 了空. SPSS中多元回归分析实例(上)[EB/OL] 

    http://hi.baidu.com/liaokong/blog/item/abe0be38344e1bc9d562259c.html,

    2010-1-11/2010-12-25.

  • 相关阅读:
    安装部署NetBeans mysql Tomact joget workflow 环境
    Django-分页扩展
    supervisor linux下进程管理工具
    注意python函数参数的可变变量的传递
    Python远程部署利器Fabric详解
    chrom 扩展程序安装
    supervisor
    python进度条
    os sys区别
    知乎上关于网站 权限系统的回答
  • 原文地址:https://www.cnblogs.com/lcword/p/5707466.html
Copyright © 2011-2022 走看看