聚类相关函数 Joyce

zoukankan html css js c++ java

聚类相关函数 Joyce

pdist

1. D = pdist (X)

        以矩阵X中每行为一个观测值（样本），计算航宇行之间的欧氏距离。得到的D是m(m-1)/2的行向量（其中m是X的行系数，即X_mxn），D=[dx_2,1, dx_3,1, ..., dx_m,1, dx_3,2, ..., dx_m,m-1]

2.

inconsistent

1.Y = inconsistent(Z)

2.Y = inconsistent(Z, d)

       Z是linkage所得的分类结果，inconsistent计算每一个新聚类中的不一致系数。如聚类为：

      则6、7、8、9节点代表新生成的聚类，1-5代表原有样本。Y中是新聚类的信息，为(m-1)x4的矩阵。以(M+i)代表新生成的聚类，如这里M=5，而6=M+1...

      设S_i代表除了叶节点外，所有深度低于（M+i）不超过d的节点（包括M+i节点自身）的集合。其中d为“深度”，默认d=2。（如这里，在默认值d=2情况下，S_3={6,7,8},S_4={8,9}）

      inconsistent生成的Y是一个（M-1）x4 的矩阵，每一行对应一个新生成的类（如这里第一行对应聚类6，第二行对应聚类7...）其中对于Y来说：

          Y(i,1) = mean(Z(S_i,3)), the mean height of nodes in S_i

          Y(i,2) = std(Z(S_i,3)), the standard deviation of node heights in S_i

          Y(i,3) = length(S_i), the number of nodes in S_i

          Y(i,4) = (Z(i,3) - Y(i,1))/Y(i,2), the inconsistent value

cluste

1.T = cluster(Z, c)

        Z是由linkage分类的结果。当0<c<2时，c是不一致系数阈值，与2一样；当2<=c时，c是包含在聚类数中的最大分类数，同3。

2.T = cluster(Z,'cutoff',c)

       当某一个聚类的不一致系数大于c，则视为聚类边界，从这里断开聚类，算为一类。

3.T = cluster(Z,'maxclust',n)

       聚类数中产生最多n类。

dendrogram

1.H = dendrogram(Z) 2.H = dendrogram(Z,p)

        生成只有顶部p个节点的冰柱图（谱系图），默认值p=30,1<p<M。dendrogram(Z,0)则表p=M的情况，显示所有叶节点。

cophenet

1.c = cophenet(Z,Y) 2.[c,d] = cophenet(Z,Y)

        计算相关系数，用来度量这种分类的失真度，即由分类确定的结构与数据间的拟合程度。其中Z是linkage输出，距离信息包含在Z（：，3）；Y是pdit输出。

        在2中，d是与Y形式一样的，代表聚类树中原样本之间距离的向量。

clusterdata

T = clusterdata(X, cutoff)

等价于：Y=pdist(X,’euclid’)
           Z=linkage(Y,’single’)
           T=cluster(Z,cutoff)

查看全文

相关阅读:
到底什么级别才算是高并发？
阿里大佬教你，如何写好 Java 代码！
Java 13 发布了！
年轻人的第一个自定义 Spring Boot Starter！
懵圈了，面试官问一个 TCP 连接可发多少个 HTTP 请求？
Java 和操作系统交互，你猜会发生什么？
不用找了，基于 Redis 的分布式锁实战来了！
中国剩余定理
 欧几里德与扩展欧几里德
 大数mod的技巧

原文地址：https://www.cnblogs.com/joycelee/p/2969945.html