zoukankan      html  css  js  c++  java
  • 聚类-衡量指标

    均一性:一个簇只包含了一个类别的样本,则满足均一性

    完整性:同类别的样本被归类到相同的簇中,则满足完整性

    若使得聚类的簇一直减小,直到剩下一个簇,那么这个聚类的完整性是最好的,但是,均一性是最差的。

    同理,若n个样本被分为了n个簇,那么这个聚类的均一性一定是最好的,但是完整性确是最差的.

    这两个是相互影响的.若想均衡一下两个,那么就需要均一性和完整性的加权平均.

    ARI:adjusted_rand_index

    数据集S共有N个元素,两个聚类结果分别是

    其实就是看,取出一个样本,看这个样本在X中属于哪个类别,再看这个样本在Y中属于哪个类别,计算相同的概率。也就是说如果X,Y聚类结果相同的话,那么这个样本在X,Y中属于的类别一定是相同的。

    参考一个矩阵:

    解释一下这个矩阵,第一行就是既是类别X1,又是Y1,Y2,YS的样本的数量,总共是a1,第一纵列就是既是类别Y1,又是X1,X2,XR的样本的数量,总共是b1,样本总数是N.

    AMI:adjusted_mutual_info

    同样的矩阵,我们将X,Y看成随机变量,然后我们计算随机变量之间的互信息,用这个互信息作为度量标准

    正则化互信息:用互信息除以各自的熵的乘积的开方

     

    ARI和AMI都必须提前知道原始的样本属于哪个标记.

    轮廓系数:

    计算样本i到同簇其他样本的平均距离ai.

    ai越小,说明样本i越应该被聚类到该簇,将ai称为样本i的簇内不相似度.

    簇C中所有样本的ai均值称为簇C的簇不相似度.

    计算样本i到其他某簇Cj的所有样本的平均距离bij,称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度

    bi越大,说明样本i越不属于其他簇.

  • 相关阅读:
    关于ARMv8指令的几个问题
    cocos2d-x2.2.3 Layer分析
    unity3D iTween的使用
    lucene索引库的增删改查操作
    【剑指offer】数值的整数次方
    Integer to Roman
    HTML标签之marquee
    Django练习——TodoList
    html5式程序员表白
    00085_异常
  • 原文地址:https://www.cnblogs.com/xiuercui/p/12006723.html
Copyright © 2011-2022 走看看