zoukankan      html  css  js  c++  java
  • 机器学习——聚类算法之K-means与K-means++,K-meansⅡ

    相似度判定:

      ①距离,公式:

     

     我们使用以欧式距离为主

      夹角余弦值:越大,相似度越高

    内积/模长

      杰卡德相似系数与相关系数

     

     如上图,则说x1与x2相似,即为杰卡德相似系数,为保持和距离的性质一致性,所以1-杰卡德相似系数,相似系数也是一样

     :聚类之后的类别,即为簇

    聚类只有合理不合理,没有好与坏。

    K-means:

      从样本中随机抽取k个点作为初始簇中心点,计算一下其他样本到这几个点的距离,离哪个点近就归于哪一个类。

      当所有样本点都以此分完后,簇中心点改为该簇里所有样本的均值。

      然后以新的簇中心点再重新把所有样本分一次类。

      一直如此循环,直到簇中心点不再变化或者变化极小为止。或者最小误差平方和(MSE,即该簇中所有样本点到簇中心点的距离之和)不再改变为止。

    聚类效果影响因素:

      ①,k值的选取

      ②,初始簇中心点的选取,如果数据不均衡时,聚类效果就可能会不好

     为什么取均值为簇中心点?原理:

    存在异常点时

    K-means算法需要解决的点:一开始随机选的那几个簇中心点如果挨得很近,可就完犊子了

    优缺点

     K-means++算法:可以说是K-means的改进

     为了解决K-means的缺点,有了

    K-means Ⅱ算法:其实就是先小批量数据集做一次K-means聚类,再以此的结果作为初始簇中心点,为所有的数据做一次K-means.

     

  • 相关阅读:
    数据库插入数据返回当前主键ID值方法
    兼容SQLSERVER、Oracle、MYSQL、SQLITE的超级DBHelper
    C# listview 单击列头实现排序 <二>
    C# ListView点击列头进行排序
    MessageBox.Show()的各种用法
    QT 删除文件指定目录
    hihoCoder 1015 KMP算法
    hiho一下 第五十周 (求欧拉路径)
    hdu
    hiho一下 第四十九周 欧拉路
  • 原文地址:https://www.cnblogs.com/qianchaomoon/p/12129080.html
Copyright © 2011-2022 走看看