zoukankan      html  css  js  c++  java
  • 机器学习-聚类

    K-MEANS算法:

    基本思想

    无监督问题,相似的归为一类。但是很难评估和调参。

    1 将数据分成K个簇,

    2 质心:均值,向量各维度取平均。

    3 距离度量:欧式距离和余弦相似度(先标准化)

    4 优化目标:min(sumCu(sumDist(c,x)2)) 从1到K个簇进行和,每个簇中,样本点到质心的距离求和。

    工作流程

    随机选取k个中心点。根据质心与样本距离分类

    根据分类结果更新质心,重新计算质心与样本点的距离。不断迭代,直到样本点不变。

    优缺点

    简单快速,适合常规数据集。

    K值很难确定,复杂度与样本呈线性相关。很难发现任意形状的簇(特殊形状)。初始值质心对结果影响巨大。

    DBSCAN聚类算法

    基本思想

    核心对象:某个点的密度达到算法设置的阈值,minPS规定领域内有n个样本点。

    阈值:设定邻域半径值r

    直接密度可达:p在q的领域内,q是核心点,则品p-q直接密度计可达。

    密度可达:间接的直接密度可达。p-k-q

    边界点:邻域内没有样本。

    噪声点:不属于任何一个簇。

    参数选择

    K距离,一般越小越好。

    优缺点

    不需要指定簇数,擅长找到特殊形状簇

    高维数据有些困难,参数难以选择。Sklearn效率低

    聚类评估:

    轮廓系数

    S(i) = b(i)-a(i) /max({a(i),b(i)})

    a(i):样本i到簇内样本的距离平均值。

    b(i):样本到其他簇内样本之间的距离的平均值。

    S(i)接近1,则聚类效果越好。

    S(i)接近-1,则聚类效果越差。

  • 相关阅读:
    python项目打包成exe
    sql同比环比计算
    七款好看文字样式纯css
    一站式智能芯片定制技术
    实战清除电脑上恶意弹出广告窗口
    GAAFET与FinFET架构
    MIPI多媒体接口
    Intel GPU实现游戏与数据中心
    芯片倒爷赚钱术
    Cache Memory技术示例
  • 原文地址:https://www.cnblogs.com/2016-zck/p/14452926.html
Copyright © 2011-2022 走看看