zoukankan      html  css  js  c++  java
  • 聚类效果评价指标

    1. ARI(Adjusted Rand Index) 兰德系数:聚类效果有一个评价指标。

      这个指标不考虑你使用的聚类方法,把你的方法当做一个黑箱,只注重结果。可以说,是一个十分“功利”的指标。

      

      在讲ARI之前呢,先讲述一下RI,也就是rand index,从两者的名字也可以看出来,这是ARI的祖宗版。

        

    这里,我们解释一下a,b,c,d分别代表什么。a呢就是说应该在一类,你最后聚类到一类的数量,b呢就是不应该在一类 ,你最后聚类结果也没把他们聚类在一起的数量。c和d那么就是应该在一起而被分开的和不应该在一起而被迫住在一起的。毕竟强扭的瓜不甜,c和d固然是错误的。所以从R的表达式中可以看出,我们只认为a和b是对的,这样能够保证R在0到1之间,而且,聚类越准确,指标越接近于1.

    这里有一个关键性的问题,就是什么叫数量?你怎么去计算?准确的说,是配对的数量。比如说a是应该在一起而真的幸福的在一起了的数量,这显然就应该像人类一样按照小夫妻数量计算,但是我们的样本可不管一夫一妻制,任意选两个就是一个配对,所以,就是n(n-1)/2这样来计算,也就是组合数,n个当中选两个的选法。同时我们看到,分母其实是所有配对的总和。

    2.轮廓系数:聚类评估指标

      

      好的聚类:内密外疏,同一个聚类内部的样本要足够密集,不同聚类之间样本要足够疏远。轮廓系数的值是介于 [-1,1] ,越趋近于1代表内聚度和分离度都相对较优。
    
       轮廓系数计算规则:

    1)对于簇中的每个向量,分别计算它们的轮廓系数。

          对于其中的一个点 i 来说:

          计算 簇内不相似度a(i) :i向量到同簇内其他点不相似程度的平均值,体现凝聚度

          计算 簇间不相似度b(i) :i向量到其他簇的平均不相似程度的最小值,体现分离度

          那么第i个对象的轮廓系数就为:

          si接近1,则说明样本i聚类合理;si接近-1,则说明样本i更应该分类到另外的簇;若si 近似为0,则说明样本i在两个簇的边界上。

    2)将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数。

     

    3.R2 (判断聚类是否应该停止了)

      

     

  • 相关阅读:
    洛谷1509 找啊找啊找GF
    要怎样努力,才能成为很厉害的人?
    随笔
    2018NOIP模拟题 曲线
    洛谷4147 玉蟾宫
    洛谷2258 子矩阵
    Vijos 纸牌
    [leetcode] Word Break
    [leetcode] Maximum Binary Tree
    [leetcode] Binary Tree Preorder Traversal
  • 原文地址:https://www.cnblogs.com/liyuewdsgame/p/13270349.html
Copyright © 2011-2022 走看看