上一篇博客介绍了准确率和F值这两个评估模型分类性能的指标,它们在聚类模型上的应用会稍微复杂一点点。
下文摘自知乎几种常见的聚类评估指标。
假设我们现在有猫狗图片100张,其中猫又25张,狗有75张。现在我们通过某种聚类算法对其进行聚类,聚类的结果为簇A中有38张图片(其中20张猫18张狗),簇B中有62张图片(其中5张猫57张狗)。那么请问如何计算该聚类算法的准确率与F值?
由于聚类算法只会将原始数据样本划分为K个簇,但是并不会告诉我们每个簇分别对应那个类别。正如上述聚类结果一样,聚类算法只将这100张图片聚成了A、B两个簇,但是我们并不知道到底是簇A和簇B与猫狗的对应关系。因此,我们在计算准确率的时候就要分两种情况来考虑。
计算准确率
计算F值
上面介绍的是聚为2类的情况,如果聚为多类,则需要用排列组合的方法,分别计算每个情况的准确率和F值,选最高的值为最终值。