pdist
1. D = pdist (X)
以矩阵X中每行为一个观测值(样本),计算航宇行之间的欧氏距离。得到的D是m(m-1)/2的行向量(其中m是X的行系数,即Xmxn),D=[dx2,1, dx3,1, ..., dxm,1, dx3,2, ..., dxm,m-1]
2.
inconsistent
1.Y = inconsistent(Z)
2.Y = inconsistent(Z, d)
Z是linkage所得的分类结果,inconsistent计算每一个新聚类中的不一致系数。如聚类为:
则6、7、8、9节点代表新生成的聚类,1-5代表原有样本。Y中是新聚类的信息,为(m-1)x4的矩阵。以(M+i)代表新生成的聚类,如这里M=5,而6=M+1...
设S_i代表除了叶节点外,所有深度低于(M+i)不超过d的节点(包括M+i节点自身)的集合。其中d为“深度”,默认d=2。(如这里,在默认值d=2情况下,S_3={6,7,8},S_4={8,9})
inconsistent生成的Y是一个(M-1)x4 的矩阵,每一行对应一个新生成的类(如这里第一行对应聚类6,第二行对应聚类7...)其中对于Y来说:
Y(i,1) = mean(Z(S_i,3)), the mean height of nodes in S_i
Y(i,2) = std(Z(S_i,3)), the standard deviation of node heights in S_i
Y(i,3) = length(S_i), the number of nodes in S_i
Y(i,4) = (Z(i,3) - Y(i,1))/Y(i,2), the inconsistent value
cluste
1.T = cluster(Z, c)
Z是由linkage分类的结果。当0<c<2时,c是不一致系数阈值,与2一样;当2<=c时,c是包含在聚类数中的最大分类数,同3。
2.T = cluster(Z,'cutoff',c)
当某一个聚类的不一致系数大于c,则视为聚类边界,从这里断开聚类,算为一类。
3.T = cluster(Z,'maxclust',n)
聚类数中产生最多n类。
dendrogram
1.H = dendrogram(Z)
2.H = dendrogram(Z,p)
生成只有顶部p个节点的冰柱图(谱系图),默认值p=30,1<p<M。dendrogram(Z,0)则表p=M的情况,显示所有叶节点。
cophenet
1.c = cophenet(Z,Y)
2.[c,d] = cophenet(Z,Y)
计算相关系数,用来度量这种分类的失真度,即由分类确定的结构与数据间的拟合程度。其中Z是linkage输出,距离信息包含在Z(:,3);Y是pdit输出。
在2中,d是与Y形式一样的,代表聚类树中原样本之间距离的向量。
clusterdata
T = clusterdata(X, cutoff)
等价于:Y=pdist(X,’euclid’)
Z=linkage(Y,’single’)
T=cluster(Z,cutoff)