zoukankan      html  css  js  c++  java
  • Cluster 技术总结

    DNA microarray分析中,聚类分析(clustering analysis)是非常重要的一步。今天学习了Pan Ning Tan的introduction to data mining ,进行一下总结:

    1. 聚类分析的分类

    1) 按照是否有层次:

    层次聚类(hierarchical clustering)

    划分聚类(partitioninng clustering)

    2)按照是否依据模型:

    non-parameter clustering:没有默认的assumption整个数据集是由哪几种分布mix的

    model-based clustering: 基于模型的聚类认为不同的‘类’有不同的‘分布’,同一个类的分布是相同的, 往往采用一种个期望最大化算法(EM):先设定初始值,然后计算每个对象属于每个分布的概率,得到这些概率后再根据特定公式加权(概率为权重)求出最大化该期望的新的参数估计,直到参数不再改变。

    model-based clustering如果恰好fit哪个数据的话,会有更好的performance。

    2. 聚类分析的特性

    如K-means往往适用于球形的类。假如类的形状是‘月牙’,K-means往往效果不好;

    DBSCAN则适用于密度不同的类。同时,DBSCAN不适用于高维数据。

    3. 评估聚类的效果

    1) 一些参数,如SSE, 凝聚度、分离度; sihouette plot,median split sihouette 

    2)  correlation heatmap: 理想效果是沿对角线呈一块一块

    3)重取样(resampling: 如bootstrap):我们看到cluster后的sample在一块,并不能代表它们之间很稳定,很可能再加上几个sample,它们便不在一起了。通过resampling,看这些sample在一起的概率多少,从而判断聚类的稳定性。

  • 相关阅读:
    Jquery easyui中的有效性检查
    当执行批量删除时
    nested exception is com.mysql.jdbc.PacketTooBigException: Packet for query is too large (1044 > 1024
    java的四种取整方法
    springmvc乱码解决
    跨域
    垂直居中
    js判断数组
    安装 node-sass 的正确姿势
    js判断qq浏览器
  • 原文地址:https://www.cnblogs.com/foreverycc/p/3027969.html
Copyright © 2011-2022 走看看