转自:https://wenku.baidu.com/view/ab758fc558f5f61fb73666a4.html
1.聚类分析的类型
2.两类距离
2.1欧式距离:
2.2明式距离:
3.距离缺点引出标准化及其他距离
马氏距离://这个没有见用过,计算比较复杂
lance和威廉距离:
配合距离:
配合距离举例://也就是其中类别不一样的数目。
4.相似度
这里上一个PPt说:变量标准化后计算的余弦夹角与相关系数相等。我进行了计算:
> x1<-c(6,7,3,6,6) > x2<-c(7,1,2,5,6) x1s<-scale(x1,center=TRUE,scale=TRUE) x2s<-scale(x2,center=TRUE,scale=TRUE) #计算余弦夹角,标准化数据 > sum(x1s*x2s)/sqrt(sum(x1s^2)*sum(x2s^2)) [1] 0.2165298 #计算相关系数 #使用未标准化的数据 > cor.test(x1,x2,method = "pearson") Pearson's product-moment correlation data: x1 and x2 t = 0.38415, df = 3, p-value = 0.7265 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.8229506 0.9225542 sample estimates: cor 0.2165298 #使用标准化的数据,结果是一样的。 > cor.test(x1s,x2s,method = "pearson") Pearson's product-moment correlation data: x1s and x2s t = 0.38415, df = 3, p-value = 0.7265 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.8229506 0.9225542 sample estimates: cor 0.2165298 #但使用标准化与为标准化数据计算余弦夹角差距非常大 > sum(x1*x2)/sqrt(sum(x1^2)*sum(x2^2)) [1] 0.8757546
查了一下,在计算皮尔逊相关系数前是否需要标准化:
5.系统聚类法
那么这里就涉及到如何读谱系图了:
就是看它的线概括到了哪些,就是哪些特征在一起了。
6.类与类之间的距离
6.1最短距离
6.2最远距离
6.3中间距离
6.4类平均法average linkage between group
//其实这个没有看懂,nm是什么?M并不是一个类啊,它并没有样本数啊。。这个待定。
6.5重心法(重心用的是均值)
6.6Ward最小方法法距离
//这里我感觉,复杂度好高啊!比方说目前有5类,那么需要两两计算合并后的离差平方和。共需要计算10次。复杂度其实是n^2。
7.标准化方法
8.快速聚类(k-means聚类)
8.1初始聚类k个点的选择
这页非常好了,选取少量样本系统聚类!。
8.2对于spss中k-means的结果:
注意到了有一个sig显著性参数,显著性<0.05,差异显著。
9.变量聚类
减少多重共线性,得到的特征并不一定都可以表示,可以减少类似的特征。
比如上图:如果分称5类的话,那么分别是286、7、1、45、3。
并且通过观察,每条直线终点指向的数就是聚类中心点。