zoukankan      html  css  js  c++  java
  • 机器学习第八堂课20210422

    聚类

    应用在无监督学习中。

    X=[X1,X2,X3,,,,Xn]

    上节课讲的降维实际是把每个数据的特征维度降低了,通过对数据本身进行分析,进行降维。

    聚类,是在数据量这个角度 通过方法,对数据进行分析,找到K个代表,可以代表整个n个数据,n个数据归类到K个代表中。

    聚类任务相关概念

    定义:依据样本的相似度或距离,将其划分为若干个通常不相交的子集(“簇”,cluster)的数据分析问题。

    目的:既可以用于发现数据内在的分布结构,也可作为分类等其他学习任务的数据处理过程。

    应用:例子1购物网站上,用户的消费类性分析(书籍、服饰......);例子2根据各个时刻统计的车流量,定义高峰时刻。

    聚类的模型表达:

    硬聚类:样本只从属于一个簇。例如Kmeans算法。软聚类:样本以概率从属于多个簇。例如高斯混合模型。

    样本的相似度度量:用距离衡量相似度时,距离越小样本越相似。

    距离的性质:非负性、同一性、对城性、直递性。

    闵可父斯基距离:p=2欧式距离、p=1曼哈顿距离。

     夹角余弦:夹角余弦越大,样本越相似。

    簇的距离:簇内的距离、簇间的距离。有以下四种典型的距离情况。

    平均距离:含义:簇类C1和C2的距离等于两个簇类所有样本对的距离平均。

    最远距离

    最近样本间距离

    中心点间的距离

    层次聚类方法

    主要特点:在不同层次

    算法过程:

    层次聚类,是一种很直观的算法。顾名思义就是要一层一层地进行聚类,可以从下而上地把小的cluster合并聚集,也可以从上而下地将大的cluster进行分割。所谓从下而上地合并cluster,具体而言,就是每次找到距离最短的两个cluster,然后进行合并成一个大的cluster,直到全部合并为一个cluster。整个过程就是建立一个树结构。

     

    基于原型的方法

    K-Means聚类

    目标:给定N个样本的集合,K均值聚类的目标是将N个样本划分为K个不同的类或者簇中。

    模型表达:用C表示划分...

    目标函数最小化样本与其所属簇的中心之间的距离的总和。

     K-Means的不足,簇的数目K需要人为指定;对簇中心的初始化比较敏感,不能保证收敛到全局最优。

    基于密度的方法

    参考链接:https://baike.baidu.com/item/%E9%97%B5%E6%B0%8F%E8%B7%9D%E7%A6%BB/22677930?fromtitle=%E9%97%B5%E5%8F%AF%E5%A4%AB%E6%96%AF%E5%9F%BA%E8%B7%9D%E7%A6%BB&fromid=23665511&fr=aladdin

    https://blog.csdn.net/qq_33384379/article/details/103579917

    https://blog.csdn.net/ycy0706/article/details/90439245

    https://blog.csdn.net/u014694994/article/details/94972668

    https://zhuanlan.zhihu.com/p/70414047

    雪儿言
  • 相关阅读:
    iOS 自动续期订阅 恢复购买
    iOS内购恢复购买
    iOS内购自动续订
    iOS苹果内购服务端技术方案
    Spring4.x体系架构
    Linux下MySQL主从复制(Binlog)的部署过程
    Linux下MySQL多实例部署记录
    Linux下MySQL基础及操作语法
    Linux下Nginx基础应用
    Linux下Apache(HTTP)基础知识梳理-运维笔记
  • 原文地址:https://www.cnblogs.com/weixq351/p/14688157.html
Copyright © 2011-2022 走看看