聚类分析,就是按照个体的特征将他们分类,目的在于让同一个类别内的个体之间具有较高的相似度,而不同类别之间具有较大的差异性。
我们可以对变量进行聚类,但是更常见的还是对个体进行聚类,也就是样本聚类。
例如对用户、渠道、商品、员工等方面的聚类,聚类分析主要应用在市场细分、用户细分等领域。
常用指标:距离和相似度。
聚类分析时,将“距离”较小的 点或“相似系数”较大的点归为同一类。
1.聚类分析总结起来共有四步:
(1)确定需要参与聚类分析的变量
(2)对数据进行 标准化处理
(3)选择聚类方法和类别个数
(4)聚类分析结果解读
常用的聚类方法主要包括:
(1)快速聚类(K-Means Cluster):也称为K均值聚类;它是按照一定的方法选取一批聚类中心点,让个案向最近的聚类中心点聚集形成初始分类,然后按照最近距离原则调整不合理的分类,直到分类合理为止。
(2)系统聚类(Hierarchical Cluster):也成层次聚类,首先将参与聚类的个案各视为一类,然后根据两个类别之间的距离或者相似性逐步合并,直到所有个案合并为一个大类为止。
(3)二阶聚类(TwoStep Cluster):
也称两步聚类,它是 随着人工智能的发展而发展起来的一种智能聚类方法。整个聚类过程
分为两步:
第一步骤是预聚类,就是根据定义的最大类别数对个案进行初步归类;
第二步骤是正式聚类,就是对第一步中得到的初步归类进行再聚类并确定最终聚类结果,并且在这一步中,会根据一定的统计标准确定聚类的类别数。
2. 快速聚类分析
我们用的案例数据是某公司员工相关信息及其绩效评估得分。该得分由三个指标组成,分别是沟通能力、业务能力和领导能力,如图10-3所示。通过对这三个指标的聚类分析,将员工进行分类,从而对他们的发展方向进行合理的规划。
图 2-1 聚类分析数据示例
2.1 实验步骤:
在SPSS中【分析】-【K-均值聚类】
图 2-2 【K均值聚类分析】对话框
3.快速聚类分析结果
通过实验步骤,在SPSS中的输出结果如下:
图 3-1 快速聚类分析结果
如图 3-1所示,第一个输出结果是“初始聚类中心”。该初始聚类中心是随机选择3个数据,作为快速聚类的初始位置。
从图上可知,选了员工ID为“1001”、“1012”、“1042”三人作为快速聚类的初始位置。
第二个输出结果是“迭代历史记录”。如上图,该结果显示了本次快速聚类分析一共迭代的次数。迭代的过程可以理解为每个类别与初始位置之间的距离改变情况,当这个距离变动非常小的时候,迭代就完成了。由图可知,一共进行了4次迭代,初始位置之间的最小距离为82.158.
图3-2 快速聚类分析输出结果
第三个输出结果是“最终聚类中心”,如图3-2。该最终聚类中心和初始聚类中心相比,在数值上发生了变化,说明通过迭代的计算过程,每个类别的位置都发生了偏移。
第四个输出结果是“每个聚类中的个案数目”,该结果显示了每个类别中所包含的数据量。类别1中包含了12名员工,类别2包含了28名员工,类别3包含了19名员工。
4.聚类分析员工分类
在快速聚类完成后,如 图 4-1,数据文件生成了一个名为“QCL_1”的变量,其中变量值表示每个个案所属的类别。我们就这个分类结果和参与聚类分析的变量制作交叉表,计算各个类别员工在沟通、业务、领导三方面能力各自的平均值,以便了解每一类别员工的特征。
图 4-1 生成分类变量的数据文件
根据“沟通能力得分”、“业务能力得分”、“领导能力得分”,这三个变量对1/2/3类别的员工进行得分分析,计算各自的平均值。
图 4-2 快速聚类结果交叉表
从交叉表可知:
(1)类别1的员工在各绩效评估指标的平均得分都较低,可认为是“工作表现较弱”的组成。
(2)类别2的员工在各绩效评估指标的平均得分是最高的,可以认为是“工作表现较强”的组别;
(3)类别3的员工在各绩效评估指标的平均值得分处于中间水平,则认为是“工作表现中等”的组别。
我们就可以根据这三个类别的情况,有针对性的制定员工未来的工作发展方向和相应的激励政策。